Python爬虫
爬虫学习及练手项目
warm...
这个作者很懒,什么都没留下…
展开
-
黑丝,白丝,全都要。某站的视频爬取加合成
视频爬取原创 2022-11-10 14:29:11 · 18968 阅读 · 0 评论 -
养眼神器,爬取美女网站个人的写真套图
python爬虫,套图爬取原创 2022-11-10 13:24:30 · 4167 阅读 · 0 评论 -
视频爬取,快就完事了
多线程爬虫原创 2020-10-18 21:33:52 · 1185 阅读 · 1 评论 -
Python爬虫练习之爬取英雄联盟皮肤
毕业设计还没有弄完,但又不想弄,就先写个爬虫换换心情吧。爬取的是英雄联盟英雄的皮肤,不过首页的url地址没有我们想要的数据,需要找到真实的url地址,就是简单的json文本,过程比较简单,步骤都写在注释里面了,完整代码如下:# 导入第三方库import requestsfrom fake_useragent import UserAgentimport timeimport jsonp...原创 2020-04-25 21:26:48 · 1575 阅读 · 0 评论 -
Python爬虫之Json数据提取,jsonpath,demjson库的使用
python爬虫之jsonpath库的使用原创 2020-04-13 16:52:37 · 1232 阅读 · 0 评论 -
python基础库json学习
一、序列化的一些简单概念我们平常使用的python对象所进行的操作是在内存中,当程序关闭就会被清空,所以我们需要用一种合适的方法将这些数据保存下来。为了将我们的数据进行永久存储,需要引入序列化(pickling/serialization)的概念。序列化的定义:将复杂的python数据结果转换成一个二进制数据集合(数据流)。反序列化:从数据流(字符串形式)重新构造复杂的python数据结构。...转载 2020-04-06 11:42:48 · 193 阅读 · 0 评论 -
python反爬虫之fontTools库的使用破解字体加密
python反爬虫之fontTools库的使用原创 2020-04-05 22:44:36 · 4457 阅读 · 2 评论 -
python之六间房视频爬取
六间房小视频地址为js渲染的网页,爬取时需要找到真实的url地址,然后找到其规律,进行翻页爬取。网页比较简单,代码如下:'''六间房视频爬取'''# 导入第三方库import requestsimport timeimport osfrom fake_useragent import UserAgent# 随机请求头ua = UserAgent()# 定义一个六间房的类...原创 2020-03-29 15:11:12 · 291 阅读 · 0 评论 -
点击验证码验证
测试平台为网易易盾的账号注册'''点击验证码验证'''from selenium import webdriverimport time# 目标网址url = "https://id.163yun.com/register?h=yd&t=yd&i18nEnable=true&locale=zh_CN&referrer=" \ "https://...原创 2020-03-28 15:33:39 · 894 阅读 · 0 评论 -
python爬虫之多线程爬取链家郑州郑东新区二手房信息
上次获取了链家658家的郑州二手房信息的房源,本次获取的为9600多家的房源信息,共一百页,但由于太多,所以就获取了前50页的内容。获取的速度也是非常的快。代码如下:'''多线程爬取链家二手房信息'''# 导入第三方库import timeimport requestsimport threadingfrom lxml import etreefrom fake_userage...原创 2020-03-25 11:51:19 · 606 阅读 · 0 评论 -
python爬虫之爬取链家658家二手房源
继上次爬取简单的链家二手房信息后,这次爬取稍微复杂一点的链家二手房房源,通过链家的过滤选择,共筛选出658家的房源,本次进行爬取。步骤和上一次简单爬取的差不多,可参考:链家简单爬取本次的爬取就是在之前的基础上,进入详情页进行爬取,提取相关信息。完整代码如下:'''爬取链家郑州二七二手房的信息'''# 导入第三方库import csvimport timeimport requ...原创 2020-03-24 21:29:59 · 264 阅读 · 0 评论 -
python爬虫之链家郑州二手房爬取
今天爬取链家郑州二手房的信息,先写简单一点的,通过链家的过滤标签,共筛选出5家符合条件的房源,只爬取了列表页的内容,后面在爬取稍微复杂一点的页面。首先分析url及返回的html文本,发现所要的信息就在当前url返回的html文本当中,这就非常简单了。返回的html文本既然这样,那提取内容就十分的简单了。这篇比较简单,就不做过多的阐述了,完整代码如下:'''爬取链家二手房信息类的使...原创 2020-03-23 16:22:56 · 1094 阅读 · 0 评论 -
python爬虫之批量下载小说
前面练习了爬取单页的小说内容,之后又练习了提取整部小说的内容:可参考:一部小说爬取继上次之后想试试批量爬取小说,想就接着干,找到目标网页的地址:页面显示如下:然后打开开发者工具,发现内容也都在相应体中,那提取数据就十分简单了,页面的跳转的地址也很容易提取:一段简单的代码实现跳转页面地址的提取,提取出来的地址少了协议,列表推导式完成地址的拼接:跳转之后竟然没有直接到详情页,跳...原创 2020-03-23 10:57:20 · 1965 阅读 · 0 评论 -
python爬虫之类的方法爬取一部小说
面向对象编程,爬取一部小说'''面向对象编程爬取17K小说网一部小说'''# 导入第三方库import osimport requestsfrom lxml import etreefrom fake_useragent import UserAgent# 随机请求头ua = UserAgent()# 定义一个小说的类class Novel_17(): de...原创 2020-03-22 19:26:16 · 668 阅读 · 0 评论 -
python爬虫之多线程爬取糗事百科
'''多线程爬取糗事百科前14页内容类的使用'''# 导入第三方库import requestsfrom lxml import etreeimport reimport threadingfrom queue import Queue# 定义糗事百科的类class QiuShiBaiKe(): # 初始化对象 def __init__(self): ...原创 2020-03-20 13:53:06 · 226 阅读 · 0 评论 -
python爬虫之提取糗事百科前5页的内容
'''糗事百科前5页内容爬取类的使用'''# 导入第三方库import requestsfrom lxml import etreeimport re# 定义糗事百科的类class QiuShiBaiKe(): # 初始化对象 def __init__(self): self.start_url = "http://www.qiushidaba...原创 2020-03-20 12:38:28 · 432 阅读 · 0 评论 -
python爬虫之提取糗事百科首页的内容
'''糗事百科首页内容爬取类的使用'''# 导入第三方库import requestsfrom lxml import etree# 定义糗事百科爬虫的类class QiuShiSpider(): # 初始化对象 def __init__(self): self.start_url = "http://www.qiushidabaike.com...原创 2020-03-20 09:44:21 · 133 阅读 · 0 评论 -
python爬虫之json加载内容获取
简单的json加载内容获取,记录一下'''json加载的内容获取类的使用'''# 导入第三方库import requestsimport re# 定义豆瓣电影的类class DouBanMovies(): # 初始化对象 def __init__(self): self.headers = { "User-Agent":...原创 2020-03-19 20:30:41 · 217 阅读 · 0 评论 -
python爬虫之爬取网站小说,获取一部小说
python爬虫之爬取网站小说,由于学习没多久,许多小细节还不是很理解清楚,在大佬的帮助下,完成了这篇。代码仅作参考:'''函数式编程纵横中文网爬取阴阳酒馆小说'''# 导入第三方库import requestsfrom lxml import etreeimport timeimport osfrom fake_useragent import UserAgentua ...原创 2020-03-12 23:03:59 · 501 阅读 · 0 评论 -
python爬虫之爬取网站小说
继上次的使用类的方法爬取的单页单章小说后,在准备爬取整部小说,遇到点困难,先用函数式编程试试结果。代码如下:'''函数式编程17K小说网爬取龙井迷案小说'''# 导入第三方库import requestsfrom lxml import etreeimport timefrom fake_useragent import UserAgent# 定义随机的UserAgent...原创 2020-03-12 14:20:12 · 307 阅读 · 0 评论 -
python爬虫之类的简单使用-----获取单页网页的小说内容保存本地
前面使用类的方法获取了html的源代码,经过漫长且挫折的学习,终于使用类的方法获取到了单页网页的小说内容。爬取的为斗罗大陆的小说的第三章,后面还会爬取整部小说。敬请期待。。。# 导入第三方库import requestsfrom fake_useragent import UserAgentimport reimport time# 创建一个小说类class Novel(): ...原创 2020-03-10 11:46:39 · 226 阅读 · 0 评论 -
python爬虫之类的简单使用
学过前面的函数的方法后,得向更高的方法学习-------类下面是类获取到网页源码的简单实现。类的命名:首字母大写且要遵循大驼峰原则init( )方法初始化对象'''类的创建及调用运用类的方法打印html文本'''# 导入第三方库import requestsfrom fake_useragent import UserAgent# 创建随机请求头ua = UserAge...原创 2020-03-09 21:20:55 · 447 阅读 · 0 评论 -
MongoDB的存储简单使用
初学mongodb数据库,记录一下简单的数据存入# 导入第三方库import requestsfrom lxml import etree# 导入pymongoimport pymongofrom fake_useragent import UserAgent# 定制请求头ua = UserAgent()headers = {"UserAgent":ua.random}# 连...原创 2020-03-07 14:57:17 · 217 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,requests xpath os 提取MM图片并保存本地 03
众所周知,学习python,不,学习爬虫,爬取图片就是练练技术,是通往大师路上的阶梯,什么MM图啊,什么斗图啊,就是练技术的,就算爬取下来咱也不会看的。嗯,对,不会看的。好,言归正传,第一次爬取的图片就只是把首页的图片爬取下来了,并没有爬取详情页的图片,还是不爽的。看的正舒服,换人就扫兴了。对,我是不看的,所以爬到什么我也不知道。第一次爬取可参考:第一次的爬取首页爬取下来看不到详情页得...原创 2020-03-03 15:02:44 · 610 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,requests xpath 提取图片并保存02
紧接上一次的首页图片保存,这篇是提取详情页的图片并保存,且第一页的地址又与以后的地址不一样,需要单独处理。'''requests库请求目标网址xpath提取网页的图片地址面向函数编程提取首页与以面网页不一样的图片'''#导入第三方库import requestsfrom lxml import etreeimport time#useragent库from fake_...原创 2020-02-29 15:31:28 · 460 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,requests xpath提取图片地址并保存图片
系统练习requests xpath提取图片并保存本地'''requests库请求目标网址xpath提取网页的图片地址面向函数编程'''#导入第三方库import requestsfrom lxml import etree#定制请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '...原创 2020-02-29 14:30:00 · 1471 阅读 · 5 评论 -
python爬虫之正则表达式回顾
前面使用正则表达式匹配了文本及属性,提取到了想要的内容,学习完之后,来回顾总结总结。表达式的匹配规则:\w 匹配字母、数字及下划线\W 匹配不是字母、数字及下划线的字符\s 匹配任意空白符,等价于[\t \n \r \f]\S 匹配任意非空字符\d 匹配任意数字,等价于[0-9]\D 匹配任意非数字的字符\A 匹配字符串开头\Z 匹配字符串结尾,如果存在换行,只匹...原创 2020-02-22 14:50:04 · 165 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,xpath多属性匹配
xpath匹配一个标签有多个属性时,需要用and连接符单个属性匹配可参考[单个属性匹配](https://blog.csdn.net/qq_46292926/article/details/104433826)'''xpath多属性匹配'''#导入第三方库from lxml import etree#瞎写的一段html代码text = '''<div class="tit...原创 2020-02-21 20:46:06 · 754 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,xpath属性多值匹配
xpath使用之属性多值匹配之前的匹配方式可参考属性单值值匹配由于找不到合适的网址来爬取,所以就瞎写了一段html代码用于实验记住方式即可'''属性多值匹配当属性有多个时,如果还用之前的属性匹配得到的结果为空用contains()函数可以解决'''#导入第三方库from lxml import etree#自己瞎写的一段html代码text = '''<div i...原创 2020-02-21 20:31:55 · 746 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,xpath提取文本
紧接前面的xpath提取属性,这篇则提取文本'''xpath提取网页的文本面向过程编程'''#导入第三方库import requestsfrom lxml import etree#定制请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' ...原创 2020-02-21 20:04:13 · 787 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,xpath提取属性
新解析库的使用xpath提取网页图片的地址'''xpath提取网页的图片地址面向过程编程'''#导入第三方库import requestsfrom lxml import etree#定制请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' ...原创 2020-02-21 19:53:07 · 252 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,正则表达式综合练习,提取电影名称和图片网址
正则表达式综合练习,提取猫眼热映口碑榜电影的名称和图片'''正则表达式模块综合练习获取猫眼电影名获取电影图片地址单页爬取面向过程式编程'''#导入第三方库import reimport requestsimport time#请求头headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \...原创 2020-02-19 16:27:47 · 739 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,正则表达式提取文本
紧接上一次正则表达式提取图片,这次提取文本获取的是图书的书名,没有获取详细的内容'''正则表达式模块提取网页文本面向过程式编程'''#导入第三方库import reimport requests#请求头headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \ ...原创 2020-02-19 15:57:51 · 516 阅读 · 2 评论 -
初学python爬虫,记录一下学习过程,正则表达式提取图片网址
初学python爬虫,今天用正则表达式提取网页内的图片地址'''正则表达式模块提取网页图片地址面向过程式编程'''#导入第三方库import reimport requests#请求头headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \ 'App...原创 2020-02-19 15:43:49 · 914 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,requests库使用代理
初学python基本请求库requestsrequests学习02使用代理#requests库使用代理#导入第三方库import randomimport requests#设置代理proxy = [{'http':'118.112.195.202:9999', 'http':'114.233.49.11:9999', 'http':'114.9...原创 2020-02-17 21:08:38 · 256 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,requests库获取网页代码
初学爬虫,在看崔庆才的书,记录一下。#获取三秋书屋源代码#导入requests库import requests#定制请求头 headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) ' ...原创 2020-02-16 15:13:27 · 302 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,requests库session处理cookies并登录网址
requests库session的应用处理cookies并登录网址#session处理cookies并登录豆瓣#导入第三方库import requests#目标网页 为登录的网页地址url = 'https://www.douban.com/'#登录数据data = {'手机号/邮箱':'自己的账号', 'password':'自己的密码'}#请求头heade...原创 2020-02-17 21:40:04 · 486 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,requests库模拟登录03,使用字典推导式处理cookies
字典推到式处理cookies模拟登录#导入第三方模块import requests#定制请求头 将cookies加入请求头中模拟登录headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) ' ...原创 2020-02-17 21:35:36 · 150 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,requests库模拟登录02,使用 for循环处理cookies
requests库模拟登录模拟登录for循环处理cookies模拟登录#使用cookies模拟登录药智网#导入第三方模块import requests#定制请求头 将cookies加入请求头中模拟登录headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/...原创 2020-02-17 21:31:32 · 383 阅读 · 0 评论 -
初学python爬虫,记录一下学习过程,requests库模拟登录01
初学python基本请求库requestsrequests学习03模拟登录01登录时cookies要求为字典类型,但字典推导式还不会用,用word完成了字典的替换。结果成功登录个人中心网页#使用cookies模拟登录药智网#导入第三方模块import requests#定制请求头headers = {'user-agent':'Mozilla/5.0 (Windows NT 10....原创 2020-02-17 21:22:30 · 289 阅读 · 0 评论