爬虫
林灵会灭
这个作者很懒,什么都没留下…
展开
-
知乎子话题爬虫
知乎子话题爬虫1.从知乎话题入手,避免登录2.话题界面研究3.正式爬虫获取子话题 1.从知乎话题入手,避免登录 从话题入手,避免知乎登录,比如我们需要的是“心理学”话题数据,只要输入网址 https://www.zhihu.com/topic/19551432/top-answers,就能进入,阅读话题,而不需要登录知乎。 2.话题界面研究 进入话题,看到下图所示界面。我们需要爬取的是,“心理学”...原创 2019-05-24 14:59:01 · 978 阅读 · 0 评论 -
知乎动态加载应对
1.知乎动态加载 当我们需要爬取知乎中的数据时,会发现知乎采取动态加载技术,内容块只有在浏览器下滚时才会刷新。没有“下一页”,所以不同与普通爬虫,我们需要模拟浏览器的操作。 2.Selenium与PhantomJS的配合 对于采用异步加载技术的网页,可以使用Selenium模块模拟浏览器。Selenium是一个用于Web应用程序测试的工具,直接运行在浏览器中,使浏览器自动加载页面,Seleniu...原创 2019-05-24 20:15:32 · 823 阅读 · 2 评论 -
知乎内容爬取
1.子话题网页爬取 第一篇爬虫博客,爬取“心理学”话题的所有层次的子话题网址、以及名称 地址:https://blog.csdn.net/qq_35159009/article/details/90516414 2.话题页面动态加载,模拟下滚 知乎界面采用动态加载技术,只有浏览器下滚,才能刷新出数据 第二篇爬虫博客,利用Selenium与PhantomJS模拟浏览器下滚 地址:https://bl...原创 2019-05-24 21:02:04 · 1988 阅读 · 1 评论 -
知乎话题爬虫干货
1. 多进程 当爬虫的数据量越来越大时,除需要考虑存储方式外,还需考虑爬虫时的速度问题。串行爬取只有当一次爬取完之后才可进行下一次爬取,极大地限制了爬取的速度和效率。 当计算机运行程序时,会创建进程,包含代码和状态。而计算机的一个或多个CPU将会执行这些进程。同一时刻每个CPU只会执行一个进程,然后在不同进程之间快速切换。在一个进程中,程序的执行也是在不同线程之间进行切换的,每个线程将会执行程序的...原创 2019-05-24 21:28:37 · 639 阅读 · 0 评论 -
MongoDB数据库基本操作
1. 服务开启 在cmd-命令行窗口中输入: net start MongoDB 2. 可视化工具Robomongo 右键 ADD,保存默认设置——save——connect连接数据库 3. python插入 创建数据库 import pymongo client = pymongo.MongoClient('localhost',27017) #连接数据库 mydb=client['zhi...原创 2019-05-24 23:38:54 · 153 阅读 · 0 评论