自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 爬虫笔记num7-验证码识别

验证码识别反爬机制处理方法:识别图片中的数据,用于模拟登陆识别验证码的操作人工肉眼识别(不推荐)第三方自动识别(推荐)(云打码,斐斐打码,超级鹰等)需要充值使用流程(使用的云打码)(之后云打码已经用不了,超级鹰跟下属步骤几乎相似)注册(普通或者开发者用户)开发者用户——创建软件——添加新软件——导入软件名称——提交———产生软件秘钥和id——开发文档——下载实例代码——点击下载云打码接口代码中只需要修改部分用户名,密码,软件id,秘钥上图为超级鹰的开发文档,选择开发语言。之

2020-10-21 21:15:59 1025

原创 爬虫学习笔记--XPATH

xpath解析特点:常用,便捷高效,通用性强原理:实例化一个etree的对象,且需要将解析的页面源码加载到对象中;调用etree中xpath方法,结合xpath表达式实现标签的定位内容获取的捕获。环境安装pip install lxml# 本地html文档中的源码加载到etree对象from lxml import etree etree.parse(filepath)# 将从互联网啥干活去的源码加载到对象中etree.HTML('page_text')"/"根目录,根节点开

2020-10-19 21:47:06 196

原创 数据解析——BeautifulSoup

数据解析——BeautifulSoupBeautifulSoupbs4数据解析:实例化一个BeautifulSoup对象,并且将页面远吗加载到该对象中。通过调用BeautifulSoup对象中相关属性方法进行标签定位,数据提取。环境安装pip install bs4pip install lxml 解析器下面介绍一个是从本地html文档中加载BeautifulSoup对象中,一个是从互联网获取的页面源码,加载到BeautifulSoup对象中,并通过lxml解析器进行解析from bs

2020-10-19 15:43:37 308

转载 数据解析

数据解析1.解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储。2.指定的标签的定位3.标签或者标签对应的属性中存储的数据值进行提取(解析)正则表达式正则表达式语句import rere.compile(“正则表达式”).findall(“原字符串”)匹配符普通字符 正常匹配其中的字符。\n 匹配换行符。\t 匹配制表符。\w 匹配字母、数字、下划线。\W 匹配除了字母、数字、下划线的字符串。字母大写相当于非(个人总结)\d 匹

2020-10-19 12:59:36 1112

原创 创建一个文件夹-python

创建一个文件夹import os# 如果没有这个xxx文件夹,就生成一个。有这个文件夹直接添加进去后面的操作if not os.path.existsc('./xxx'): os.mkdirc('./xxx')

2020-10-19 12:41:02 152

原创 爬虫学习笔记num6-肯德基餐厅地址查询

肯德基餐厅地址爬取需求:爬取肯德基在某地区的餐厅地址,餐厅名称当我们输入城市关键字点击查询之后,网址的url并没有改变,说明我们想要的数据并没有在该网址上,数据都是动态加载出来的使用抓包工具当点击查询的时候得到如下一个请求在response中得到一个json字符串,格式化之后得到这样一个列表可知这是动态加载的数据–ajax请求(直接用url发送请求不行)import requestsurl = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreL

2020-10-19 12:38:03 826 2

原创 爬虫学习笔记num5

爬虫学习笔记num5实例:豆瓣电影TOP250排行榜需求:爬取豆瓣电影前250影片片名,导演和演员,评分,简介,评价人数这里用的是xpath进行数据抓取的,这里没有进行翻页操作,如需翻页操作,只需对url进行传入参数即可。后面运用crawlspider进行全站爬取只需在Rule添加翻页链接的正则表达式即可。如果进行数据持久化存储可以传建一个文件夹放入即可,也可以放入数据库,excel表格中。import requestsfrom lxml import etree# 指定url地址url =

2020-10-16 19:51:04 508

原创 爬虫学习笔记num4

爬虫学习笔记num4实例:破解百度翻译当我们进入百度翻译网站页面时,鼠标右击打开开发者工具(或者键盘F12),在要翻译的文本框中随便输入,注意开发者工具中netwo中XRH刷新,这是属于ajax请求(具有局部刷新,异步访问。经常使用的场合:搜索建议,表单验证)**注意看Response Headers中content_type的类型响应数据是一组JSON数据,尤其的注意,请求方式看Request Method是POST请求(携带了参数)post_url = "https://fanyi.baidu

2020-10-16 17:05:09 541

原创 爬虫学习笔记num3

爬虫学习笔记num3基于笔记二中的get发送请求,之前没有考虑UA伪装,本次将get请求中的params参数和headers参数进行赋值。对于URL携带的参数要封装到字典中。import requests#处理url中携带的参数要封装到字典中url = "www.xxx.com"kw = input("enter a word:")param = {'query': kw}# 对指定url发起请求对应的url是携带参数,并且请求过程中处理了参数response = requests.get

2020-10-16 16:27:47 160

原创 爬虫笔记2

爬虫笔记2Requests模块python原生基于网络请求的模块作用:模拟浏览器发送请求。功能强大,简单,效率极高。使用流程:指定URL发送请求(get浏览器)获取响应数据持久化存储环境安装pip install requestsIDE :用的是Pycharm演示上述步骤import requests# 指定urlurl = "www.xxx.com"# 发送请求(此处暂时不考虑UA伪装)response = requests.get(url=url)# text返回

2020-10-16 16:02:07 162

原创 爬虫学习笔记num1

爬虫笔记1爬虫分类1.通用爬虫:抓取系统的重要做成部分,一整张页面数据。2.聚焦爬虫:建立在通用爬虫的上,抓取页面的特定局部内容。3.增量式爬虫:检测网站中的数据是否额更新,抓取更新的部分。反爬机制门户网站通过策略或手段,来阻止爬虫程序爬取网站的数据robots.txt协议:规定了网站那些数据可爬取。(君子协议)(说明书)反反爬策略爬虫通过则略或手段,破解反爬机制,来爬取网页的数据HTTP协议超文本传输协议,吴福气与客户端数据交互的一种形式。常用的请求头信息–User-Agent

2020-10-16 15:50:31 118

原创 Scrapy Shell命令行使用

Scrapy Shell命令行使用scrapy shell是一个交互中断,可以在未启动的spider的情况下调试代码。其本意是用来测试提取代码,该中断用来测试XPath或者CSS表达式,测试是否正确抓取数据。scrapy shell启动加上–nolog不打印日志如:scrapy shell URL --nologscrapy shell使用scrapy downloader 根据url下载内容,下载页面后,可以对页面内容进行检查,操作。如:获取页面标题>>>response.

2020-10-13 11:12:13 239

原创 通用爬虫-CrawlSpider

CrawlSpiderCrawlSpider`Rule对象CrawlSpider`Rule对象*CrawlSpider中最常用也是最重要的就是riles属性。rules是一个或一组R略对象,必须写成tuple形式。每一个Rule对象定义了对目标网站的爬取行为,如果有多个Rule对象匹配同一个链接,就说明第一个Rule生效。*class scrapy.spiders.Rule( link_extractor,callback=None,cb_kwargs=None, follow=None,p

2020-10-13 11:08:18 183

原创 Opencv 面向Python 第2天

##图像处理基础###图像的基本表示方法####二值图像二至图像是仅仅包含黑色和白色俩种颜色的图像。白色的像素点为1,黑色的像素点为0.####灰度图像黑白俩种颜色不够细腻,要使图像丰富,引入灰度图像。计算机将灰度处理为256个灰度级,用数值区间【0,255】来表示。其中‘255’表示为纯白色,‘0’表示为纯黑色,其余数值表示从纯白到纯黑之间的不同级别的灰度。####彩色图像彩色图...

2020-04-15 20:46:10 277

原创 Opencv 面向Python 第一天

图像处理基本操作###读取图像*opencv提供了函数cv2.imread()来读取图像,该函数支持各种静态图像格式。retval = cv2.imread(filenmae,flags)###显示图像cv2.namesWindow()用来创建指定名称的窗口###cv2.imshow()用来显示图像None = cv2.imshow(winname,mat)###waitKey函数...

2020-04-15 20:11:12 239

泰勒、切比雪夫等几种加权分布

泰勒、切比雪夫等几种加权分布

2022-12-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除