python
文章平均质量分 89
Meaoxixi
留在这里的所有资源都是本科时候自己的收获,目前进入研究生阶段啦,欢迎大家关注我其他的工作:https://github.com/Meaoxixi
展开
-
python爬虫实战之旅( 第九章:scrapy框架(上))
1.scrapy框架1.1 什么是scrapy框架?首先什么是框架?框架就是一个集成了很多功能并且具有很强通用性的一个项目模板。如何学习框架?专门学习框架封装的各种功能的详细用法。什么是scrapy?是爬虫中封装好的一个框架。scrapy的功能:高性能的持久化存储;异步的数据下载;高性能的数据解析,分布式。1.2 scrapy环境的安装:pip install scrapy1.3 scrapy的基本使用:1.3.1 新建一个scrapy工程使用pycharm下方自带的控原创 2021-03-08 17:23:21 · 307 阅读 · 1 评论 -
python爬虫实战之旅(12306模拟登录+验证码识别+滑块验证)
上接: 第八章:selenium模块补充:这一节的验证码识别是通过第三方平台——超级鹰;超级鹰方面的操作可以看我之前记录的这篇博客:超级鹰平台的使用1. 12306模拟登录编码流程:使用selenium打开登陆页面对当前selenium打开的这张页面进行截图对当前图片局部区域(验证码图片)进行裁剪好处:将验证码图片和模拟登录进行一一对应使用超级鹰识别验证码图片(返回值为:坐标)输入用户名,密码点击登录按钮会跳出一个页面显示需要滑块验证2. 写代码实验的过程中遇到的问题:原创 2021-03-07 19:26:21 · 2889 阅读 · 19 评论 -
python爬虫实战之旅( 第八章:selenium模块)
1.selenium模块1.1 selenium模块与爬虫之间的关系:便捷的获取网站中动态加载的数据便捷实现模拟登录1.2 selenium模块定义:是基于浏览器自动化的一个模块selenium使用流程:1.3 准备工作环境安装:pip install selenium下载一个浏览器的驱动程序:谷歌浏览器驱动程序下载路径注意下载版本与自己电脑上浏览器的版本要匹配,将下载好的exe程序文件复制到自己的python编译器的环境文件里。把下载好的驱动程序复制到自己当前的p原创 2021-03-06 21:15:30 · 494 阅读 · 0 评论 -
python爬虫实战之旅( 第七章:异步爬虫(协程法))
支持异步的框架演变历史:tornado、fastapl、django 3.x asgi、aiohttp1.协程定义:协程不是计算机提供的,而是通过程序人为创造;即让一个线程能够在代码中游走(在流程中随意切换),使代码切换执行。1.1 实现协程的方法使用第三方模块(例如早期的greenlet模块)使用yield关键字使用python3.4引入的asyncio装饰器使用python3.5定义的关键字async、await1.1.1 greenlet实现协程安装:pip install原创 2021-03-04 20:29:34 · 671 阅读 · 1 评论 -
python爬虫实战之旅( 第七章:异步爬虫(线程池法))
上接: 第六章:代理下接:第七章:异步爬虫(协程法)1.高性能异步爬虫1.1 目的在爬虫中使用异步实现高性能的数据爬取操作。1.2 实质一个线程下有多个任务,当任务遇到I/O需要等待时就执行其他任务原创 2021-03-02 15:30:36 · 524 阅读 · 0 评论 -
“吴恩达深度学习”第三周编程代码汇总(实现一个神经网络)
前言这篇博客主要记录"吴恩达depplearning系列课程"第三周编程作业代码+自己的补充理解的相关内容,以作为学习记录。学习过程中借鉴了各位大佬的代码,想要追根溯源的朋友可以看这几位大佬的博客:大树先生的博客(英文版),何宽(中文版)作为初学者,本文的代码是自己当前能做到的”终极满意缝合怪“,同时部分原搬的代码也加了很多注释,便于理解。目录编程练习环境:Pycharm 2017.1/python 3.8第1部分:需要准备的Packages1.1 - sigmoid函数,np.exp()的原创 2021-03-01 21:09:57 · 845 阅读 · 1 评论 -
python爬虫实战之旅( 第六章:代理)
1.背景概要1.1IP反爬机制:一般的门户网站会对每个访问的IP在一段时间内进行跟踪,如果这个IP的访问请求超出了一定的阈值,网站就会自动拦截这个IP的请求,并且断开信息的传送。1.2 代理:破解IP这种反爬机制2.代理的概要定义:即代理服务器,就是网络信息中的一个中转站。2.1代理的作用:突破自身IP访问的限制可以隐藏自身真实IP2.2代理相关的网站:快代理西祠代理http://ip.2993.net/www.goubanjia.com2.3代理IP的类型:h原创 2021-03-01 15:36:25 · 250 阅读 · 2 评论 -
python爬虫实战之旅( 第五章:模拟登录+session对象+cookie值)
上接:第四章:验证码识别1.模拟登录用于爬取某些用户的信息。2.对人人网进行模拟登录的分析2.1 弄清人人网登陆的流程输入用户名、密码、验证码(验证码需要输入错误三次密码才会出现)pic_center找到“登录”button右键——检查——勾选“preserve log”(保留日志)点击登录按钮在捕获到的数据包中点击“login”对应的数据包查看相关详细信息发现这是一个post请求,同时post请求中会携带之前录入的登录信息(用户名,密码,验证码……)原创 2021-03-01 11:50:29 · 763 阅读 · 0 评论 -
python爬虫实战之旅( 第四章:验证码识别)
上接: 第三章:数据解析(xpath法)第四章:验证码是网页制定的一种反爬机制,需要识别验证图片中的数据,用于模拟登录。识别验证码的操作:人工肉眼识别(不推荐)第三方自动识别(推荐但要收费)超级鹰图鉴4.1超级鹰平台的操作首先就是登录/注册操作:进入用户中心之后确认自己的题分>10分,没有的话就充钱(1元=1000分)题分准备之后,进入软件ID——生成一个软件ID——此时生成的软件ID的数字之后有用:然后进入开发文档,将相应的python代码下载下来在本原创 2021-02-26 16:26:39 · 323 阅读 · 0 评论 -
“吴恩达deeplearning.ai”学习笔记(p47-p60:第二课时第一章:超参数调试、正则化以及优化)
1.机器深度学习的实操课程 1.1训练_开发_测试集 1.2偏差_方差 1.3机器学习基础 1.4正则化 1.5为什么正则化可以减少过拟合? 1.6Dropout正则化 1.7理解Dropout 1.8其他正则化方法 1.9归一化输入 1.10梯度消失于梯度爆炸 1.11神经网络的权重初始化 1.12梯度的数值逼近 1.13梯度检验 1.14关于梯度检验实现的注记...原创 2021-02-25 21:25:35 · 1273 阅读 · 0 评论 -
python爬虫实战之旅( 第三章:数据解析(xpath法))
1.xpath解析简介最常用且最便捷高效的一种解析方式。通用性很好xpath解析原理实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获环境的安装pip insatll lxml如何实例化一个etree对象①.将本地的html文档中的源码数据加载到etree对象中:etree.parse(filePath)②可以从互联网上获取的源码数据加载到该对象中etree.HT原创 2021-02-25 20:04:36 · 677 阅读 · 0 评论 -
python爬虫实战之旅( 第三章:数据解析(bs4法))
1.数据解析步骤标签定位提取标签,标签属性中存储的数据值2.bs4数据解析的原理实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装pip install bs4pip install lxml使用实例化BeautifulSoupfrom bs4 import BeautifulSoup对象的实例化方法①:将本地的html文档中的数据加载到该对象中用原创 2021-02-24 18:54:52 · 415 阅读 · 0 评论 -
Python 正则表达式
前言参考文档有:- link1- link2- link3目录1.正则表达式的简介1.1使用正则表达式的原因2.Python 正则表达式相关函数2.1 re.match()2.2 re.search()2.3 re.sub2.4 re.compile2.5 findall2.6 re.finditer()2.7 re.split()3.正则表达式修饰符-可选标志4.正则表达式模式1.正则表达式的简介先看个小例子:*——通配符,可以匹配0个或多个字符原创 2021-02-23 17:57:09 · 253 阅读 · 1 评论 -
python爬虫实战之旅( 第三章:数据解析(正则法))
第三章:数据解析分类:正则法bs4xpath(通用性较强)数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储①进行指定标签的定位②标签或者标签对应的属性中存储的数据进行提取(解析)回顾—— 聚焦爬虫:爬取页面中指定的页面内容;而获得相应的数据信息之后的处理我们就称之为数据解析。编码流程指定url发起请求获取响应数据数据解析持久化存储3.1正则法3.1.1-python正则表达式(regular expression——regex原创 2021-02-23 15:49:38 · 314 阅读 · 1 评论 -
python爬虫实战之旅( 第二章:爬虫开发-requests模块)
- 是python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。 - 用于模拟浏览器发送请求。原创 2021-02-21 23:57:52 · 688 阅读 · 4 评论 -
python爬虫实战之旅(第一章:爬虫基础简介)
b站视频参考:2020年python爬虫全套课程本文下接第二章:爬虫开发-requests模块的学习第一章:爬虫基础简介1.1爬虫简介1.1.1 什么是爬虫?通过编写程序,模拟浏览器上网(爬取),然后让其去互联网上抓取数据的过程。1.1.2 爬虫的价值爬取的数据进行用于实际应用就业、商业化1.2爬虫合法性探究法律不禁止具有违法风险爬虫可能抓取受到了法律保护的特定类型的数据或信息爬虫干扰了被访问网站的正常运营1.3爬虫初始深入1.3.1爬虫的主要应用场景:通用爬原创 2021-02-21 21:16:09 · 246 阅读 · 3 评论