爬虫
静听山水
Just do it
展开
-
python进行Ajax异步加载爬取豆瓣电影
一般情况下,动态加载的网页,比如下拉时先是白的,然后慢慢渲染出内容,或者在同一页面内网址只改变一些参数来加载新内容的情况,我们基本可以判断为Ajax。当然最关键的判断方法是:可以参考https://blog.csdn.net/qing_2012/article/details/8179025,爬取网址:https://movie.douban.com/explore#!type=movi...原创 2019-11-24 15:55:01 · 740 阅读 · 0 评论 -
解决requests爬取网页源代码出现乱码
都在推荐用Requests库,而不是Urllib,但是读取网页的时候中文会出现乱码。分析:r = requests.get(“http://www.baidu.com“)r.text返回的是Unicode型的数据。使用r.content返回的是bytes型的数据。也就是说,如果你想取文本,可以通过r.text。如果想取图片文件,则可以通过r.content。比如在下面这种就会出...原创 2019-11-24 14:21:18 · 2518 阅读 · 0 评论 -
python爬取网易云歌曲名字
之前都是按部就班的往下写,终于尝试在爬虫里写函数了网址:https://music.163.com/#/artist?id=9272,爬取这50首歌的名字。分析网址:网易云主页是https://music.163.com,所以可以知道对于不同的歌手都有一个对应的id,像这样就需要将参数传入url中,另外浏览器标识headers是不变的header(写爬虫最关键的便是与反爬虫之间的斗争,...原创 2019-11-23 19:47:03 · 1757 阅读 · 1 评论 -
python爬取百度图片并存储在文件夹中
初始网站:http://image.baidu.com/输入关键词"武汉",得到网址为:https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=11111...原创 2019-11-23 19:20:28 · 1611 阅读 · 0 评论 -
python爬取作文网站
from bs4 import BeautifulSoupimport urllib.requestimport reurl="https://gl.baidu.com/view/f7d06a39b0717fd5360cdcc2" #作文网站html=urllib.request.urlopen(url).read()soup = BeautifulSoup(html,'lx...原创 2019-11-23 17:32:03 · 729 阅读 · 0 评论 -
python爬虫基础
import urllib.requestUrl="https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%B8%E3%D0%A6%CD%BC%C6%AC&fr=ala&ala=1&alatpl=adr...原创 2019-11-23 17:23:11 · 118 阅读 · 0 评论