![](https://img-blog.csdnimg.cn/20210405171015786.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫学习笔记
文章平均质量分 84
爬虫学习
「已注销」
这个作者很懒,什么都没留下…
展开
-
爬虫项目实战十四:爬取慕课课程
爬取慕课学校云课程目标项目准备项目分析代码实现完整代码效果显示目标爬取慕课学校云的课程信息。项目准备软件:Pycharm第三方库:requests网站地址:https://www.icourse163.org/项目分析首先登录上自己的慕课账号,以便分析。审查元素查看源代码,发现在源代码中无法找到。在这里给找到了点开看一下,所有的信息都在这里了。发现为post请求,所以这里要获取真正的网址的话,要获取一系列的东西。代码实现1.使用cookie登录上账号,获取真实的网址原创 2020-10-10 20:39:05 · 4602 阅读 · 4 评论 -
初学scrapy框架遇到的坑(下)
接上:初学scrapy框架遇到的坑(上)初学scrapy遇到的坑(中)在前面两个中已经爬取了博客的标题和链接,在这里继续前面的步骤,开始爬取博客的内容部分。# -*- coding: utf-8 -*-import scrapyfrom bs4 import BeautifulSoupfrom ..items import BlogScrapyItemclass BlogSpider(scrapy.Spider): name = 'blog' allowed_domains原创 2020-09-04 16:33:14 · 212 阅读 · 0 评论 -
爬虫项目实战十三:爬取zol桌面壁纸
爬取zol桌面壁纸目标项目准备项目分析页码分析反爬分析代码实现效果显示目标爬取zol桌面壁纸,批量下载图片。项目准备软件:Pycharm第三方库:requests,fake_useragent,re,lxml网站地址:http://desk.zol.com.cn/1920x1080/项目分析打开网站看一下。每一个都是一个图集。点开查看源代码可以看出每一个都可以在源代码中找到。判定为静态网页。页码分析第一页url链接:http://desk.zol.com.cn/192原创 2020-09-03 17:29:37 · 1220 阅读 · 2 评论 -
爬虫项目实战十一:爬取当当网商品信息
爬取当当网商品信息目标项目准备网站分析页码分析反爬分析代码实现效果显示目标批量爬取当当网商品信息,保存为csv文件到本地。项目准备软件:Pycharm第三方库:requests,fake_useragent,lxml,csv网站地址:http://search.dangdang.com/网站分析打开网站页面,去搜索一种商品,比如豆豆鞋。可以看到:http://search.dangdang.com/?key=%B6%B9%B6%B9%D0%AC&act=inputkey=原创 2020-08-09 08:17:08 · 4840 阅读 · 2 评论 -
爬虫项目实战十:模拟登陆作家助手
模拟登陆作家助手目标项目准备项目分析代码实现效果显示目标由于每次登录还要输入账号和密码,这样太麻烦了,为了节约时间用自动化控制软件控制浏览器来登录作家助手。项目准备软件:Pycharm第三方库:selenium网站地址:https://write.qq.com/public/login.html?authortip=0项目分析打开网站。这个有账号登录,QQ登录和微信登录。因为我之前用QQ注册过,所以就用QQ登录的方式。点击前去登录QQ。会得到这样一个页面。把网址复制下来备用。原创 2020-08-06 16:38:14 · 318 阅读 · 0 评论 -
爬虫项目实战九:爬取6间房小视频
爬取6间房小视频目标项目准备网站分析页码分析反爬分析代码实现效果显示目标爬取6间房小视频,批量保存到本地文件夹。项目准备软件:Pycharm第三方库:requests,fake_useragent网站地址:https://v.6.cn/minivideo/网站分析打开网站分析网页是什么加载类型。F12打开开发者模式。这是抓取的数据包。判断为动态加载类型。页码分析第一个数据包:第二个数据包:第三个数据包:https://v.6.cn/minivideo/getM原创 2020-08-05 22:54:03 · 2610 阅读 · 0 评论 -
爬虫项目实战八:爬取天气情况
爬取天气情况目标项目准备接口分析代码实现效果显示写入本地目标根据天气接口,爬取接下来一周的天气情况。项目准备软件:Pycharm第三方库:requests,BeautifulSoup,csv接口地址:http://api.k780.com:88/?app=weather.future&weaid=城市名&appkey=10003&sign=b59bc3ef6191eb9f747dd4e83c99f2a4&format=xml接口分析http://api.k7原创 2020-08-05 18:47:46 · 2157 阅读 · 3 评论 -
爬虫项目实战七:爬取找万物视频
爬取找万物小视频目标项目准备网站分析页码分析反爬分析代码实现效果显示目标爬取找万物小视频,批量下载到本地。项目准备软件:Pycharm第三方库:requests,fake_useragent网站地址:https://3b.link/h5/brochures网站分析打开网站。分析网页是什么加载类型。F12打开开发者模式。滑动鼠标,会自动加载数据包。判断为动态加载类型。页码分析第一页:https://api.3b.link/Api/Brochure/HomeList?pag原创 2020-07-28 23:14:45 · 695 阅读 · 0 评论 -
爬虫项目实战五:爬取无印良品
爬取无印良品门店信息目标项目准备网站分析反爬分析网址分析代码实现效果显示目标爬取城市无印良品门店信息,保存为csv文件到本地。项目准备软件:Pycharm第三方库:requests,fake_useragent,csv网站地址:https://www.muji.com/storelocator/?c=cn网站分析打开网站看一下。抓包看一下F12检查元素选择Network,输入框要输入一下城市名称。这里尝试输入上海市。这是各种数据包。打开这个数据包,会发现这里就是很多门店的详情信息原创 2020-07-22 21:46:42 · 431 阅读 · 0 评论 -
爬虫项目实战四:爬取语录大全
爬取语录大全目标项目准备网站分析反爬分析每一页的链接分析代码实现效果显示目标爬取语录,批量下载到本地。项目准备软件:Pycharm第三方库:requests,fake_useragent,re,lxml网站地址:http://www.yuluju.com网站分析打开网站。有很多分类,不同类型的语录。点击爱情语录,发现上方网址变化为http://www.yuluju.com/aiqingyulu/点击搞笑语录,也会发生类似的变化。以下类似。判断是否为静态网页。有页码跳转一般原创 2020-07-21 11:42:13 · 554 阅读 · 0 评论 -
爬虫项目实战二:爬取起点小说网
爬取起点小说网目标项目准备网站分析反爬分析代码实现效果显示目标爬取一本仙侠类的小说下载并保存为txt文件到本地。本例为“大周仙吏”。项目准备软件:Pycharm第三方库:requests,fake_useragent,lxml网站地址:https://book.qidian.com网站分析打开网址:网址变为:https://book.qidian.com/info/1020580616#Catalog判断是否为静态加载网页,Ctrl+U打开源代码,Ctrl+F打开搜索框,输入:第一章原创 2020-07-19 11:01:17 · 2037 阅读 · 1 评论 -
爬虫项目实战一:爬取500px图片
爬取500px图片目标项目准备网站分析反爬分析代码实现运行结果目标爬取500px网站图片并保存到本地。项目准备软件:Pycharm第三方库:requests,fake_useragent网站地址:https://500px.com/popular网站分析首先拿到一个网站,先看一下目标网站是静态加载还是动态加载的。右边有个下拉滚动条,下拉之后会发现,它是没有页码并且会自动加载的,一般这样就可以初步判断该网站为动态加载方式,或者还可以打开开发者模式,复制其中一个图片链接,Ctrl+U查看源代原创 2020-07-18 12:21:53 · 1293 阅读 · 2 评论 -
初学scrapy遇到的坑(中)
开始爬取修改blog.py中的代码。Scrapy自带了xpath和css选择器,这里使用BeautifulSoup解析爬取。# -*- coding: utf-8 -*-import scrapyfrom bs4 import BeautifulSoup#导入模块class BlogSpider(scrapy.Spider): name = 'blog' allowed_domains = ['https://www.cnblogs.com/'] start_urls =原创 2020-05-23 16:41:10 · 403 阅读 · 3 评论 -
初学scrapy框架遇到的坑(上)
目标:抓取博客园第一页的博客信息,标题链接和内容创建scrapy项目cmd进入自定义目录我这里直接1.先输入:F:进入F盘2.cd F:\pycharm文件\学习 进入自定义文件夹这时就可以在命令框里创建scrapy项目了。scrapy startproject blog_Scrapy这时就会在该目录下创建以下文件:使用pycharm打开文件目录打开items.py会看到修改代码为:import scrapyclass BlogScrapyItem(scrapy.原创 2020-05-23 12:26:18 · 2286 阅读 · 0 评论 -
chapter.requests库1.2
cookiecookie是什么有什么作用?http请求是无状态的请求协议,不会记住用户的状态和信息,也不清楚在此之前我们访问过什么,因此网站需要记录用户是否登录时,就需要在用户登录后创建一些信息,并且要把这些信息记录在当前用户的浏览器中,这些记录的内容就是cookie。当用户使用这个浏览器继续访问这个服务器时,会主动携带这个网站设置的cookie的信息,这时就可以直接访问了。举个例子:我...原创 2020-04-30 18:03:49 · 98 阅读 · 0 评论 -
chapter.requests库1.1
User-Agent请求头当我们在编写爬虫时有时会被网页当成爬虫或者知道不是人为操作,这时我们就要使用User-Agent请求头来包装我们的爬虫。例:import requests #导入requests库#定义请求的urlurl='https://www.xicidaili.com/nn'#发送get请求result=requests.get(url)#获取响应结果print...原创 2020-04-30 15:31:15 · 246 阅读 · 0 评论 -
chapter.requests库1.0
requests库的安装pip install requestsrequests基本使用import requests #导入requests库#定义请求的urlurl='https://www.baidu.com/'#发送get请求result=requests.get(url)#获取响应结果print(result)运行结果:<Response [200]...原创 2020-04-30 12:07:35 · 194 阅读 · 0 评论 -
chapter.初识1.2(正则表达式二)
正则表达式常用函数re.match函数 尝试从字符串的开始位置匹配。re.match(pattern, string, flags)第一个参数为正则表达式,匹配成功返回match,否则返回None。第二个参数为要匹配的字符串。第三个参数为是标致位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配。re.search函数re.search(pattern, s...原创 2020-03-10 13:13:48 · 135 阅读 · 0 评论 -
chapter.初识1.1(正则表达式一)
了解:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。原子普通字符作为原子import restring="helloworld"#普通字符作为原子p="owo"#要匹配的字符赋予presult=re.search(p,string)print(resul...原创 2020-03-09 22:12:35 · 484 阅读 · 0 评论 -
chapter.初识1.0(编写第一个爬虫)
因为之前就对python有所了解,所以就不对Python的安装与环境配置有过多的说明了(这好像也不是初识哦,哈哈)。这里使用python3.7 Spyder集成开发环境,因为使用的是Anaconda自带很多第三方库所以这里就不对第三方库的导入有过多的说明了。编写第一个简单的爬虫# -*- coding: utf-8 -*-import requestsurl="https://...原创 2020-03-08 11:11:26 · 157 阅读 · 0 评论