- 博客(5)
- 收藏
- 关注
原创 反爬措施——随机请求头
这是简短而又重要的一篇文章,在我们爬取一些网站时,如果网站做了一些小的反爬措施,我们的爬取过程将不会很顺利。所以今天我将会提供一些请求头,以便大家在爬取数据的时候更加顺利。 这是所有随机请求头的链接http://www.useragentstring.com/pages/useragentstring.php?name=All 下面将会列出一些我们常用的请求头: Chrome 70.0.3538.77 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWe
2020-05-20 15:43:01 416
原创 某网站电影详情爬取
网站首页:网站首页链接 我们以爬取最新电影为例:最新电影链接 先获取电影的URL,然后在根据URL来分析网页,最后提取我们需要的信息。我们检查网页源码可以发现,我们所要提取的每一部电影的详细URL在div class="co_content8"下面的每一个a下面的href属性,只要找到每一部电影的URL,我们离爬取电影详情就更加靠近了。 获取每一部电影的详细URL import requests from lxml import etree header = {"User-Agent" :
2020-05-19 09:38:53 588
原创 表情包的爬取
今天这一期教大家如何爬取并下载表情包,我门爬取最新表情表,首页链接如下:表情包首页 爬取的页数我们以50页为示例,如果你想爬取全部,可以自行改动 首先我们用代码获取前50页的链接: import requests from bs4 import BeautifulSoup from urllib.request import urlretrieve import os BASE_PAGE_URL = 'http://www.doutula.com/photo/list/?page=' PAGE_URL_L
2020-05-19 09:30:36 659
原创 爬取全国各地天气情况
首先我们打开中国天气网的首页 中国天气网 右键点击检查: 找到包含我们要爬取内容的标签: conMidtab = soup.find('div', class_="conMidtab") tables = conMidtab.find_all('table') 然后在我们的每一个标签当中找到我们需要的内容: for table in tables: trs = table.find_all('tr')[2:] 接下来就是内容的提取: for index, tr in e
2020-05-17 11:12:56 921
原创 Python写不一样的二维码
现在二维码各式各样,但是我也曾也想过要自己写一个自己的二维码,然后就看上了Python这个让人喜爱的编程语言,虽然学习的不是很深入,但依旧对他有爱。 我们用的工具是anaconda,如果你用pycharm也是可以的,毕竟这只是我们用来达到目标的工具而已。 安装就不说了,直接开始我们的编译。我们用到的是MyQR,首先下载,在Anaconda中下载,pip install MyQR,然后开始在jupyter中导入他,import MyQR as myqr。 开始我们的编译,最简单的黑白二维码, 直接上代码,简
2020-05-09 18:14:50 227
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人