自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 反爬措施——随机请求头

这是简短而又重要的一篇文章,在我们爬取一些网站时,如果网站做了一些小的反爬措施,我们的爬取过程将不会很顺利。所以今天我将会提供一些请求头,以便大家在爬取数据的时候更加顺利。 这是所有随机请求头的链接http://www.useragentstring.com/pages/useragentstring.php?name=All 下面将会列出一些我们常用的请求头: Chrome 70.0.3538.77 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWe

2020-05-20 15:43:01 416

原创 某网站电影详情爬取

网站首页:网站首页链接 我们以爬取最新电影为例:最新电影链接 先获取电影的URL,然后在根据URL来分析网页,最后提取我们需要的信息。我们检查网页源码可以发现,我们所要提取的每一部电影的详细URL在div class="co_content8"下面的每一个a下面的href属性,只要找到每一部电影的URL,我们离爬取电影详情就更加靠近了。 获取每一部电影的详细URL import requests from lxml import etree header = {"User-Agent" :

2020-05-19 09:38:53 588

原创 表情包的爬取

今天这一期教大家如何爬取并下载表情包,我门爬取最新表情表,首页链接如下:表情包首页 爬取的页数我们以50页为示例,如果你想爬取全部,可以自行改动 首先我们用代码获取前50页的链接: import requests from bs4 import BeautifulSoup from urllib.request import urlretrieve import os BASE_PAGE_URL = 'http://www.doutula.com/photo/list/?page=' PAGE_URL_L

2020-05-19 09:30:36 659

原创 爬取全国各地天气情况

首先我们打开中国天气网的首页 中国天气网 右键点击检查: 找到包含我们要爬取内容的标签: conMidtab = soup.find('div', class_="conMidtab") tables = conMidtab.find_all('table') 然后在我们的每一个标签当中找到我们需要的内容: for table in tables: trs = table.find_all('tr')[2:] 接下来就是内容的提取: for index, tr in e

2020-05-17 11:12:56 921

原创 Python写不一样的二维码

现在二维码各式各样,但是我也曾也想过要自己写一个自己的二维码,然后就看上了Python这个让人喜爱的编程语言,虽然学习的不是很深入,但依旧对他有爱。 我们用的工具是anaconda,如果你用pycharm也是可以的,毕竟这只是我们用来达到目标的工具而已。 安装就不说了,直接开始我们的编译。我们用到的是MyQR,首先下载,在Anaconda中下载,pip install MyQR,然后开始在jupyter中导入他,import MyQR as myqr。 开始我们的编译,最简单的黑白二维码, 直接上代码,简

2020-05-09 18:14:50 227

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除