爬虫
pythoner_116
初级pythoner 欢迎交流!
展开
-
selenium安装及学习记录
1.seleium安装记录selenium使用pip安装即可pip install seleium接下来 启动seleium注意 使用seleium驱动chrome的时候 需要单独下早chrome驱动并且加载https://npm.taobao.org/mirrors/chromedriver/下载驱动 注意驱动版本要对应chrome版本版本对应关系:https://blog.csd...原创 2020-02-19 17:51:24 · 134 阅读 · 0 评论 -
python爬虫多线程请求示例(生产者消费者模型)
多线程是提升爬虫采集速度一个非常好的方式之一。首先我们要引用两个python内置模块,threading和queueimport threadingfrom queue import Queuethreading用于操作线程queue用于创建队列对于简单的项目来说,不需要类似于scrapy的多层回调,也就是在列表页的请求过程中,异步获取详情页的数据。我们可以简单的将,列表页,详情页...原创 2020-02-19 15:48:18 · 534 阅读 · 0 评论 -
大众点评店铺详情页评论采集(破解css文字映射反爬,包含项目github 可用时间至2020-01-21)
在店铺详情页下拉 点击更多点评 才会进入真正的详情页。在这个页面,使用的是css的文字映射反爬。分析一下页面 可以看到部分评论的数据是缺失的,跟每个节点的class属性可能有关系1.打开...原创 2020-02-03 13:06:27 · 1103 阅读 · 0 评论 -
大众点评列表页采集思路,破解字体文件反爬(包含项目github 可用时间至2020-01-21)
前言:最近想试试抓取大众点评数据,找了些开源代码发现基本上都用不了。自己写了一个能跑起来的项目,分享给大家,首先抓取“海底捞”店铺的列表页数据。注意,大众点评的采集需要全程登录,我是直接使用自己账号的cookie登录。1.找到列表页请求接口进入点评网首页 搜索==“海底捞“==...原创 2020-01-21 13:13:19 · 1292 阅读 · 0 评论 -
基于国家统计局城乡规划数据的地名提取(2)
在上一篇中我们采集了国家统计局2018年的全国地名数据。接下来,我们将会用这个数据进行匹配,提取相关的地级市与省份。之前我们采集的全国地名数据分为了两种数据结构分别保存,在这里我们使用第一种结构的数据。接下来我们要写一个进行提取的函数。输入是公司名称的字符串,公司所属省份,与省份对应相应的地名数据。接下来就进入重点了,开始对前两个词的地名数据进行匹配。首先对第一个词进行匹配。若第一...原创 2019-12-30 17:29:54 · 469 阅读 · 0 评论 -
基于国家统计局城乡规划数据的地名提取(1)
实战项目-基于国家统计局的地名提取(1)国家统计局城乡规划网爬虫超简单的小项目,涉及到简单的爬虫以及基础的python编程知识。很简单哦最近手里有一份公司的名单,其中大部分包含了地名信息。要求根据公司名称,获取到公司所属的地级市。类似于如下。可以看到每个公司名称都会包含一个地名信息,但其中有一部分是xx县,xx乡,xx区,对于这一部分信息就需要找到这个地名他所属的上级地级市。我最终用了一...原创 2019-12-27 15:45:28 · 1369 阅读 · 0 评论