![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据爬取
傻瓜菜的傻瓜菜地
傻瓜菜。。。
展开
-
20161228:for pyhton网络数据采集02
1.数据库变高效:(1)给每个数据表增加一个id字段。(2)只能索引,e.g.质检所查询列的一部分字符。(3)关于数据查询时间和数据空间问题 2.数据存储后再清洗:OpenRefine 3.马尔科夫文字生成器:基于一种常用于分析大量随机事件的马尔可夫模型,随机事件的特点是一个离散事件发生之后,另一个离散时间将在前一个事件的条件下以一定的概率发生的。 4.python的自然语原创 2016-12-28 11:54:57 · 202 阅读 · 0 评论 -
20161227:for python网络数据采集01
原创 2016-12-27 21:04:45 · 232 阅读 · 0 评论 -
20161229:for python网络数据采集03
1.python 的Requests库可以处理复杂的Http请求、cookie、header(响应头和请求头) 2.大多数主流网站都会在它们robots.txt文件里注明禁止爬虫接入登录表单,需要一组不同类型的表单和登录内容。 用request实现 用request跟踪cookie 3.到目前为止,JavaScript是网络上最常用也是支持者最多的客户端脚本语言。j原创 2016-12-29 15:04:58 · 300 阅读 · 0 评论