自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 python数据分析之Jupyter使用初步

Jupyter使用初步使用以下代码安装jupyter,pip install jupyter安装完成后,我们打开cmd,cd到目标文件目录下,使用下面的代码启动jupyter,jupyter notebook这是jupyter notebook会自动在浏览器中打开。我们需要使用pycharm或者在浏览器上创建新的jupyter文件,创建文件后关闭pycharm上面打开的jupyter文件,防止同时占用。jupyter有以下常用命令,常用命令:- 键盘左上角ESC进入命令状态- 命令状

2020-07-26 21:52:19 608

原创 python爬虫之Scrapy框架(三)

Scrapy框架1.爬虫队列爬虫分为广度爬虫和深度爬虫。广度爬虫是使用队列来存放url地址。其会在我们将一个地址传给他时,将地址存入队列,然后取出先放入的url地址,对url地址进行解析,将解析到的url地址再放入队列,这样无限循环下去,直到队列中没有url地址。我们来看下面的一个爬虫,from queue import Queueimport requestsimport lxml.htmlclass DownloadItem: """ 下载url对象 """

2020-07-24 19:33:21 189

原创 python爬虫之Scrapy框架(二)

Scrapy框架1.CrawlSpider在Scrapy框架中,提供了一个CrawlSpider爬虫,这个爬虫会自动对所有符合特定条件的url地址进行爬取,我们无需再通过yield Request的方式爬取。我们首先创建一个项目,在项目目录下使用下面的代码创建一个CrawlSpider,scrapy genspider -t crawl 爬虫名称 "目标url二级域名"创建好后,我们会在spiders文件夹下,找到爬虫文件,Scrapy提供的代码如下,import scrapyfrom sc

2020-07-22 20:59:07 282

原创 python爬虫之Scrapy框架(一)

Scrapy框架1.介绍写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。因此真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。2.架构图爬虫给引擎发送请求引擎发给调度器,调度器接收到url以后将url生成requests对象并存储到队列中引擎从调度器中

2020-07-20 21:27:46 361

原创 python爬虫之JS混淆加密、字体反爬

1.JS混淆加密我们之前爬取有道翻译的翻译内容时,我们通过fiddler抓取url地址时,我们发现如果我们直接将相关参数传入,会报错。只是因为,某些参数是变化的。因此,我们需要解读JS文件,取得相关参数的生成算法,利用python生成参数,再传入。我们继续以有道翻译为例讲解如何获取相关参数的生成算法,并利用python生成参数。首先,我们使用fiddler抓取翻译所需要的全部参数,data = { "i": keyword, # 翻译内容 "from": "AUTO", # 源语

2020-07-20 13:47:09 13578

原创 python爬虫之识别图片验证码

识别图片验证码1.识别流程获取图片生成的url,进而获取要识别的验证码通过第三方库识别验证码输出识别结果2.识别方法我们这里通过chaojiying(付费,识别度高)和Tesseract(免费,对于中文识别程度较差)进行识别。3.操作3.1.基本框架我们以登陆人人网为例,进行识别验证码的操作。首先,我们进入人人网,获取人人网验证码图片的地址,注意,这里rnd是随机生成的因此,我们需要用random模块,随机输出。我们登录人人网,并通过fiddler工具获取登录所需要的相关参数。

2020-07-20 08:55:20 3337

原创 python爬虫之动态网页抓取

动态网页抓取AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。因为传统的在传输数据格式方面,使用的是XML语法。因此叫做AJAX,其实现在数据交互基本上都是使用JSON。使用AJAX加载的数据,即使使用了JS,将数据渲染到了浏览器中,在右键-&gt

2020-07-13 19:57:59 1023

原创 python爬虫之多线程爬虫

多线程1.多线程介绍如果我们把CPU比作一个工厂,这个工厂里面有多个车间,每一个车间就是一个进程;每一个车间有多个工人,每一个工人就是一个线程。我们之所以要学习多线程就是为了在同一时间里完成多项任务。python中的多线程使用的是threading模块。我们来看下面的一个例子,import timedef drinking(): for x in range(3): print("正在喝啤酒:%s" % x) time.sleep(1)def e

2020-07-11 12:14:17 631

原创 python爬虫之BeautifulSoup4库介绍与使用

BeautifulSoup4库1.介绍和 lxml库 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准

2020-07-08 20:09:30 891

原创 python爬虫之登录、session对象保存会话信息、Xpath安装与使用、lxml库

1.登录我们可以使用requests库实现登录账户。我们以笔趣阁为例来展示登录。注意,以下内容会涉及到JavaScript的知识。首先我们进入笔趣阁用户登录页面,右键点击检查,查看页面元素。我们可以找到以下JavaScript代码,我们看到该页面会将我们的action、username、password和usecookie参数传入“https://www.biquge.la/MemberAction.php”这个页面中,所以,我们要想通过爬虫进行用户登录,就同样需要把下列参数传给“https:

2020-07-06 21:03:58 803

原创 python爬虫利器之requests库

requests库源码传送门requests库借助了urllib3库,相较于urllib库,代码更加简单,爬虫效率更高。1.安装在cmd中执行下列代码来安装requests库。pip install requests2.请求2.1.GET请求我们直接使用requests.get()方法创建请求对象,例如,import requestsresponse = requests.get("http://www.baidu.com") # get()方法中的参数为所爬网页的url地址r

2020-07-03 20:59:19 268

原创 python爬虫及urllib库初步使用

1.初识爬虫网络爬虫(又被称为网页蜘蛛,网络机器⼈,在FOAF社区中间,更经常的称为网页追逐者),是⼀种按照⼀定的规则,⾃动的抓取万维⽹信息的程序或者脚本。urllib和urllib2库是学习Python爬⾍最基本的库,利⽤这个库我们可以得到⽹⻚的内容,并对内容⽤正则表达式提取分析,得到我们想要的结果。这个在学习过程中我会和⼤家分享的。2.urllib库初步使用2.1.简单爬取网页要爬取网页,我们需要创建请求对象,获取返回的内容和清洗数据这三个步骤。请求的创建,可以通过urllib库中的requ

2020-07-01 21:04:03 198

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除