ajax
nickname existed
嗯,暂属于小猴子,但是相信自己能变成一只程序猿!
展开
-
通过分析ajax,使用正则表达式爬取今日头条
今日头条是一个动态加载页面的网站,这一类的网站直接使用requests爬取的话得不到我们想要的内容。所以一般这类的网站都是通过分析ajax来进行抓包来获取我们想要的内容。 老规矩,首先列出需要引入的库: import json import os from urllib.parse import urlencode import pymongo import requests from bs...原创 2018-09-25 21:34:05 · 373 阅读 · 0 评论 -
使用scrapy爬取知乎用户信息
这个小爬虫主要的思想是找到一个大v,然后通过爬取这个大v的粉丝来获取用户信息,再通过粉丝的粉丝等依次往下获取信息,类似一个树状的结构。 选一个大v: https://www.zhihu.com/people/xuxiaofeng1993/activities 然后通过分析网页可知,他关注的人信息所在的接口: https://www.zhihu.com/api/v4/members/...原创 2018-09-26 22:00:09 · 190 阅读 · 0 评论