![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫实例
feiyy404
选择往往比努力更重要。
展开
-
爬取东方财富的十大成交股
任务说明 爬取 http://data.eastmoney.com/hsgt/index.html 东方财富首页的十大成交股信息。 分析接口以及参数 刷新页面,搜索相关信息, 排序筛选到带有数据的请求。 可知: 基础的请求接口是: api = ‘http://dcfm.eastmoney.com/em_mutisvcexpandinterface/api/js/get?’ 四个方面请求参数分别是: base_post_data = { 'callback': f'jQuery11230725989原创 2021-01-28 09:34:11 · 764 阅读 · 1 评论 -
python+request的重定向与追踪
重定向的状态码 301 redirect: 301 代表永久性转移(Permanently Moved) 302 redirect: 302 代表暂时性转移(Temporarily Moved ) 实例 请求: http://www.cninfo.com.cn/new/disclosure/detail?plate=szse&orgId=9900023797&stockCode=300424&announcementId=1208372407&announcementTi原创 2020-10-14 09:31:21 · 907 阅读 · 1 评论 -
相似本文去重方案-技术栈
算法 simhash + 海明距离 简单易懂讲解simhash算法 hash 哈希:https://blog.csdn.net/le_le_name/article/details/51615931 simhash算法及原理简介:https://blog.csdn.net/lengye7/article/details/79789206 使用SimHash进行海量文本去重:https://www.cnblogs.com/maybe2030/p/5203186.html#_label3 py原创 2020-08-19 15:23:56 · 284 阅读 · 0 评论 -
爬取搜狐财经
任务描述 爬取搜狐财经的实时新闻信息。 搜狐财经网址:https://m.sohu.com/ch/15 需要的字段: 标题、链接、发布时间、新闻正文 爬取分析 根据经验,F12 选择手机模式, 向下滚动,观察 XHR 栏: 很快找到了我们需要的接口。 然后观察接口规律: 变化的有两个量: 一个是时间戳,一个是当前页数。 ...原创 2020-07-20 17:42:22 · 397 阅读 · 0 评论