爬虫
Mike_Shine
BUPT.
展开
-
Scrapy框架爬虫学习--1
写在前面:今天上午把手势控制播放器的Demo弄完了。可以学习自己的东西了。因为要找爬虫的实习,所以学习一下Scrapy框架的爬虫。这个和之前做的脚本爬虫是对应的。不过好像是说Scrapy的分布式爬虫更加牛逼,没有不可以爬的网站。1. 安装好 Scrapy 和 lxml. 之后来做。2. 来看一下基本的操作。在终端下输入 scrapy shell url,就相当于之前的Request请求请求之后...原创 2018-06-12 15:52:36 · 236 阅读 · 0 评论 -
MTIMproxy的强大之处
1. MITM(Man In The Middle) Attack 中间人攻击 在之前抓取抖音的工程中,使用了mitmproxy这个强大的抓包工具(或者说是中间人拦截工具)。而mitmdump这个命令作为脚本的接口,功能及其强大,在监听包的同时还可以做一系列相关的操作,比如更改包头,获取response,获得各种包的信息,应该说是应有尽有。所以,加上适当的开发,一定可以做到实现你想...原创 2018-08-17 17:16:49 · 797 阅读 · 0 评论 -
深度爬取网易Lofter的爬虫
这里的Lofter的工作是公司要的。主要目的是爬取大量用户的相册,之后做计算机视觉的训练集来用的。个人感觉这个是爬虫很常见的一个作用领域。(不过说实话,还是感觉有点low,觉得爬虫还是比较底层的工作。)说回lofter。像这种爬取图片的一般都不难。但是Lofter这个网站,难就难在了其网页中用时间戳来做一系列的包参数,如果没有仔细研究的话,还是不好请求到包的。下面看一下我是怎么完成整个工作...原创 2018-07-25 13:51:38 · 5575 阅读 · 1 评论 -
Requests请求时SSLError的解决方法。
爬虫中,requests请求可能会遇到SSL Error的问题,看了别人的博客,是说证书的问题。解决方法:requests.get(url, verify = False ) 意思是不去认证。原创 2018-07-10 17:04:42 · 5483 阅读 · 2 评论 -
爬虫实习工作1--Redis数据库
这里我们简单写一下,今天看的redis数据库的入门知识。1. 安装:直接去下载压缩包,然后解压到某路径下。2. 使用:使用的时候是类似于Linux的使用方法,用命令行来操作。需要注意的是:一定要是在Terminal中,手动cd到解压的路径下,不能直接shift在当前路径下启动命令行。之后输入 redis-server.exe redis.windows.conf 前半句启动,后半句配置(不写就是d...原创 2018-06-27 18:37:04 · 296 阅读 · 0 评论 -
RE 的小问题
写爬虫时候正则匹配必不可少! 这里有一个问题,就是说对于 “?”“.”类似这种特殊符号的匹配。类似于转义符号,\? 即可匹配! 已经犯过两次这个错误了。浪费了很多时间。下次遇到正则匹配,匹配不到内容的时候,从后面向前删除,就明白问题在哪里! Plus: 正则的返回结果是一个List... 要用的时候一定要 re.findall()[0] 这样用 一、小括...原创 2018-07-09 15:56:56 · 274 阅读 · 0 评论 -
Scrapy框架爬虫学习--3
继上一节课爬取到了数据之后,这一节将数据入库。因为python自带了 SQLite/seklait/ 数据库,直接用就可以。1. 新建 SQLite 数据库在pycharm下进入Terml,然后进入ipython模式,之后import sqlite3zufang = sqlite3.connect('zufang.sqlite') create_table = 'create table z...原创 2018-06-14 11:36:52 · 174 阅读 · 0 评论 -
Scrapy框架爬虫学习--2
在之前的学习中已经试过了demo,今天看一下Scrapy的工程是怎样的。本节第一次正经八百的用Pycharm,暴露出了很多问题。1. 建立工程 在想要建立工程的目录下打开终端,输入scrapy startproject zufang。2. 打开工程直接用Pycharm打开工程即可。这里可能会涉及Pycharm的几个问题:interpreter配置,以及包的配置(参考他人博客中的解决方法),关于Sc...原创 2018-06-13 15:44:05 · 174 阅读 · 0 评论 -
Python3下使用WC和numpy做云图
分为两个部分来完成:1. 得到分词。2. 数据处理3. 生成云图。 1. 分词的获取。这里的分词可以是来源于爬取的文本,之后用 jieba 包做一下分词(用jieba.cut()方法)。会得到分词集合(这里返回的是generator)。可以写一个小函数来对分词结果进行初步处理。如下,可以避免单个字或者换行符号。2. 数据处理上面得到了最原始的文本分词。这里需要将...原创 2018-09-27 20:23:11 · 571 阅读 · 0 评论