mesgw01-CSDN博客

原创老孙的爬虫（四）-------储存多层次的数据，使用递归不断请求，设置id与p_id确定数据的父子关系

测试网站：https://d.qianzhan.com/xdata/list/xfyyy0yyIxPyywyy2xDxfd.html数据的储存要求：储存的数据能看出父子关系思路：因为该网站数据是层层打开的，使用递归不断请求。需要额外储存一些数据来区分数据的层次以及关系。例子：假设a数据id为1，则在a数据的子数据的p_id就都用a的id 1.代码如下：from pymongo ...

2019-02-01 15:44:54 419

原创老孙的爬虫（三）------使用selenium+chrome 使用关键字爬取js渲染的数据

目标：输入关键字爬取 http://www.freefullpdf.com/#gsc.tab=0 内pdf文件的网址（本网站为国外pdf文件网站，需要代理）方法一：在浏览器上输入这个url，然后在这个网址的搜索框中随意输入一个关键字会发现网址栏的url会变为 http://www.freefullpdf.com/#gsc.tab=0&gsc.q...

2018-12-07 18:20:32 1444

原创老孙的爬虫（二·）--------通过储存在在MongoDB中的url来下载文件

#紧接着我在"老孙的爬虫一中储存的url进行下载"from pymongo import MongoClientimport requestsimport osimport datetimefrom multiprocessing import Poolfrom multiprocessing import Processimport timeconn=MongoCli...

2018-12-03 18:26:24 660

原创老孙的爬虫（一）———爬取某网址内下载链接

目标：爬取url为"https://ebooks.adelaide.edu.au/meta/collections"的网站目录下的所有文件下载链接（每个标题点开后的界面最下方的下载链接)初始思路：首先爬取首个HTML下的内容，使用xpath过滤出接下来需要爬取的url并进行拼接，然后再次使用遍历爬取后存入MongoDB（这个思路是在没有彻底分析需要下载的数据时预想的，爬取过程繁琐，优化见下面）...

2018-12-03 18:01:07 2541

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 老孙的爬虫（四）-------储存多层次的数据，使用递归不断请求，设置id与p_id确定数据的父子关系

原创 老孙的爬虫（三）------使用selenium+chrome 使用关键字爬取js渲染的数据

原创 老孙的爬虫（二·）--------通过储存在在MongoDB中的url来下载文件

原创 老孙的爬虫（一）———爬取某网址内下载链接

空空如也

空空如也

原创老孙的爬虫（四）-------储存多层次的数据，使用递归不断请求，设置id与p_id确定数据的父子关系

原创老孙的爬虫（三）------使用selenium+chrome 使用关键字爬取js渲染的数据

原创老孙的爬虫（二·）--------通过储存在在MongoDB中的url来下载文件

原创老孙的爬虫（一）———爬取某网址内下载链接