2020年07月_ForsetiRe

原创 python数据分析之Jupyter使用初步

Jupyter使用初步使用以下代码安装jupyter，pip install jupyter安装完成后，我们打开cmd，cd到目标文件目录下，使用下面的代码启动jupyter，jupyter notebook这是jupyter notebook会自动在浏览器中打开。我们需要使用pycharm或者在浏览器上创建新的jupyter文件，创建文件后关闭pycharm上面打开的jupyter文件，防止同时占用。jupyter有以下常用命令，常用命令：- 键盘左上角ESC进入命令状态- 命令状

2020-07-26 21:52:19 608

原创 python爬虫之Scrapy框架(三)

Scrapy框架1.爬虫队列爬虫分为广度爬虫和深度爬虫。广度爬虫是使用队列来存放url地址。其会在我们将一个地址传给他时，将地址存入队列，然后取出先放入的url地址，对url地址进行解析，将解析到的url地址再放入队列，这样无限循环下去，直到队列中没有url地址。我们来看下面的一个爬虫，from queue import Queueimport requestsimport lxml.htmlclass DownloadItem: """ 下载url对象 """

2020-07-24 19:33:21 189

原创 python爬虫之Scrapy框架(二)

Scrapy框架1.CrawlSpider在Scrapy框架中，提供了一个CrawlSpider爬虫，这个爬虫会自动对所有符合特定条件的url地址进行爬取，我们无需再通过yield Request的方式爬取。我们首先创建一个项目，在项目目录下使用下面的代码创建一个CrawlSpider，scrapy genspider -t crawl 爬虫名称 "目标url二级域名"创建好后，我们会在spiders文件夹下，找到爬虫文件，Scrapy提供的代码如下，import scrapyfrom sc

2020-07-22 20:59:07 282

原创 python爬虫之Scrapy框架(一)

Scrapy框架1.介绍写一个爬虫，需要做很多的事情。比如：发送网络请求、数据解析、数据存储、反反爬虫机制（更换ip代理、设置请求头等）、异步请求等。这些工作如果每次都要自己从零开始写的话，比较浪费时间。因此Scrapy把一些基础的东西封装好了，在他上面写爬虫可以变的更加的高效（爬取效率和开发效率）。因此真正在公司里，一些上了量的爬虫，都是使用Scrapy框架来解决。2.架构图爬虫给引擎发送请求引擎发给调度器，调度器接收到url以后将url生成requests对象并存储到队列中引擎从调度器中

2020-07-20 21:27:46 361

原创 python爬虫之JS混淆加密、字体反爬

1.JS混淆加密我们之前爬取有道翻译的翻译内容时，我们通过fiddler抓取url地址时，我们发现如果我们直接将相关参数传入，会报错。只是因为，某些参数是变化的。因此，我们需要解读JS文件，取得相关参数的生成算法，利用python生成参数，再传入。我们继续以有道翻译为例讲解如何获取相关参数的生成算法，并利用python生成参数。首先，我们使用fiddler抓取翻译所需要的全部参数，data = { "i": keyword, # 翻译内容 "from": "AUTO", # 源语

2020-07-20 13:47:09 13578

原创 python爬虫之识别图片验证码

识别图片验证码1.识别流程获取图片生成的url，进而获取要识别的验证码通过第三方库识别验证码输出识别结果2.识别方法我们这里通过chaojiying(付费，识别度高)和Tesseract(免费，对于中文识别程度较差)进行识别。3.操作3.1.基本框架我们以登陆人人网为例，进行识别验证码的操作。首先，我们进入人人网，获取人人网验证码图片的地址，注意，这里rnd是随机生成的因此，我们需要用random模块，随机输出。我们登录人人网，并通过fiddler工具获取登录所需要的相关参数。

2020-07-20 08:55:20 3337

原创 python爬虫之动态网页抓取

动态网页抓取AJAX（Asynchronouse JavaScript And XML）异步JavaScript和XML。过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。因为传统的在传输数据格式方面，使用的是XML语法。因此叫做AJAX，其实现在数据交互基本上都是使用JSON。使用AJAX加载的数据，即使使用了JS，将数据渲染到了浏览器中，在右键-&gt

2020-07-13 19:57:59 1023

原创 python爬虫之多线程爬虫

多线程1.多线程介绍如果我们把CPU比作一个工厂，这个工厂里面有多个车间，每一个车间就是一个进程；每一个车间有多个工人，每一个工人就是一个线程。我们之所以要学习多线程就是为了在同一时间里完成多项任务。python中的多线程使用的是threading模块。我们来看下面的一个例子，import timedef drinking(): for x in range(3): print("正在喝啤酒：%s" % x) time.sleep(1)def e

2020-07-11 12:14:17 631

原创 python爬虫之BeautifulSoup4库介绍与使用

BeautifulSoup4库1.介绍和 lxml库一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM（Document Object Model）的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准

2020-07-08 20:09:30 891

ForsetiRe的博客