- 博客(4)
- 收藏
- 关注
原创 老孙的爬虫(四)-------储存多层次的数据,使用递归不断请求,设置id与p_id确定数据的父子关系
测试网站:https://d.qianzhan.com/xdata/list/xfyyy0yyIxPyywyy2xDxfd.html数据的储存要求:储存的数据能看出父子关系思路:因为该网站数据是层层打开的,使用递归不断请求。需要额外储存一些数据来区分数据的层次以及关系。例子:假设a数据id为1,则在a数据的子数据的p_id就都用a的id 1.代码如下:from pymongo ...
2019-02-01 15:44:54 419
原创 老孙的爬虫(三)------使用selenium+chrome 使用关键字爬取js渲染的数据
目标:输入关键字爬取 http://www.freefullpdf.com/#gsc.tab=0 内pdf文件的网址(本网站为国外pdf文件网站,需要代理)方法一:在浏览器上输入这个url,然后在这个网址的搜索框中随意输入一个关键字会发现网址栏的url会变为 http://www.freefullpdf.com/#gsc.tab=0&gsc.q...
2018-12-07 18:20:32 1444
原创 老孙的爬虫(二·)--------通过储存在在MongoDB中的url来下载文件
#紧接着我在"老孙的爬虫一中储存的url进行下载"from pymongo import MongoClientimport requestsimport osimport datetimefrom multiprocessing import Poolfrom multiprocessing import Processimport timeconn=MongoCli...
2018-12-03 18:26:24 660
原创 老孙的爬虫(一)———爬取某网址内下载链接
目标:爬取url为"https://ebooks.adelaide.edu.au/meta/collections"的网站目录下的所有文件下载链接(每个标题点开后的界面最下方的下载链接)初始思路:首先爬取首个HTML下的内容,使用xpath过滤出接下来需要爬取的url并进行拼接,然后再次使用遍历爬取后存入MongoDB(这个思路是在没有彻底分析需要下载的数据时预想的,爬取过程繁琐,优化见下面)...
2018-12-03 18:01:07 2541
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人