- 博客(10)
- 收藏
- 关注
原创 Elasticsearch Python查询超过10000笔数据解决方法
Elasticsearch Python查询超过10000笔数据解决方法起因最近在做数据收集以及分析,目前收集的数据使用的是ES目前已经超过10W笔,当我想要将所以有数据从ES抓下来做分析的时候遇到了问题我使用form size 来做分页一开始查询第0至10000笔数据都是正常的但是当我想查询10000 至20000 笔数据就报错了查询代码如下GET index/_search{"from ":10000,"size" : 10000,"query":{"match_all":{}}}
2021-03-22 12:42:05 1601
原创 flask开发API与宝塔配置SSL教学
记录下自己在开发flask API 遇到的问题1.flask API最近在学习前端,遇到一个需求需要使用Ajax去获取json档案内的数据,首先我想到的是直接写个json 放在本地之后通过ajax 去读取 代码如下:写在前面:本人是这很垃圾的程序员很多东西都是一知半解,如果各位大佬看出有不对的地方还请指教~<script> $.ajax({ url: '本地json路径', type: "GET", /* or type:"GET" or type
2020-05-13 16:05:56 740
原创 爬虫day4
实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。
2019-04-13 14:37:30 174
原创 爬虫day3
摘要各位大家好今天要介绍的是Selenium自动化测试模块以及什么是代理池,首先简单的说一下Selenium,在我的理解中Selenium可以模拟使用者的动作去开启网页进行账号登陆的动作目前我的应用场景有自动论坛发文,自动登录特定网站,selenium刚开始是为了作测试而生的,但是后来被用来模拟浏览器登录以及高级爬虫例如爬取动态加载的内容,详细可以参考官方文档,再来我们说说什么是代理池,先说说我...
2019-04-10 09:57:08 180
原创 爬虫day2
摘要今天的任物是通过requests + bs4 & lxml 这三个库来完成爬取丁香园论坛的回复内容首先我们说一下数据 这里的数据包含了 标题 楼主提问的问题内容 以及各楼层的回复内容(title author_say recovery) 这三个内容 bs4 以及lxml 的文档较为玩整这里就不多做赘述,有需要可以去查看文档 bs4 lxml 笔者这里较为常用的爬虫库是bs4,lxml...
2019-04-08 02:05:49 187
原创 爬蟲day1
摘要今天来介绍一下通过requests + re(正则表达式) 完成的爬虫首先我们先介绍一下 requests 这各库,这是一个很好用的爬虫库搭配BS4可以完成大部分的爬虫工作,当然如果遇到JS 渲染的时侯就要另外想办法了,可以参考Scrapy框架这是一个专门做爬虫的框架 ,我们接着说requests ,requests我个人常用的方法有两种一个事get 一个是post ,get-向指定的資源...
2019-04-06 11:59:19 213
原创 机器学习算法基础3-决策树
摘要今天介绍决策树以及 信息论基础首先我们看到 信息论基础可以分为熵是接收的每条消息中包含的资讯的平均量,又被称为资讯熵,信源熵,平均资讯本体量。这里,「消息」代表来自分布或数据流中的事件,样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)联合熵联合熵的定义,代表X,Y同时发生的不确定性条件熵在资讯理论中,条件熵描述了在已知第二个随机变量 ...
2019-04-03 20:20:31 313
原创 机器学习基础算法二-逻辑回归
摘要之前介绍了线性回归现在我们来介绍一下逻辑回归以及两者之间的差异,逻辑回归通过一组预测器变量,可以很有效的预测特征与输出结果。这与线性回归很相似,但更适用于二分类问题。方程系数可以用来估计模型中的自变量的比率,这适用于更广泛的问题模型,另一方面,可以将逻辑回归用于确定某个事件的可能性,输出值为0或1。在逻辑回归中不仅可以解决二分类问题,也可以求解多分类问题,只不过它常被用来做二分类。线性回...
2019-04-01 20:29:41 203
原创 机器学习基础算法笔记
机器学习是入门AI的必经之路里面有众多的基础算法如线性回归,决策树等等的算法,机器学习可以分为监督式学习(Supervised learning)以及非监督学习(Unsupervised Learning ),目前最广泛被使用的分类器有人工神经网络、支持向量机、最近邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类,无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
2019-03-29 17:16:29 291
原创 用post man 上传图片到微信
用post man 上传图片到微信记录一下 我目前完成的小程序后端开发过程这里用post man 做测试上传客服群的qrcode 有在网路上搜寻了一下发现都没有相关的教学可能是太简单了 但我相信还是会有人用的到的 不多说直接来吧1.参考文档 https://developers.weixin.qq.com/miniprogram/dev/api-backend/uploadTempMedia...
2019-03-16 13:38:33 393
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人