feng_zhiyu的博客

http://www.fzhiy.com/ 欢迎关注我的博客,期待与大家一起学习~

【网络爬虫】点触验证码的识别

crack.py import time from io import BytesIO from PIL import Image from selenium import webdriver from selenium.webdriver import ActionChains from ...

2018-08-28 12:02:21

阅读数 1905

评论数 0

【网络爬虫】验证码识别(图形验证码识别和极验验证码识别)【问题待解决】

图形验证码的识别 目标 以知网的验证码为例,讲解利用 OCR 技术识别图形验证码的方法。 准备工作 识别图形验证码需要库 tesserocr。 详见:网络爬虫开发实战,崔庆才著https://blog.csdn.net/only_Tokimeki/article/details/8142...

2018-08-28 12:02:15

阅读数 1195

评论数 0

【网络爬虫】Redis存储

原文见:https://germey.gitbooks.io/python3webspider/content/5.3.2-Redis%E5%AD%98%E5%82%A8.html Redis 是一个基于内存的高效的键值型非关系型数据库,存取效率极高,而且支持多种存储数据结构,使用也非常简单,在...

2018-08-26 21:55:21

阅读数 331

评论数 0

【网络爬虫】MongoDB存储

原文见:https://germey.gitbooks.io/python3webspider/content/5.2.1-MySQL%E5%AD%98%E5%82%A8.html MongoDB 是由 C++ 语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类...

2018-08-26 21:53:50

阅读数 67

评论数 0

【网络爬虫】MySQL存储

原文见:https://germey.gitbooks.io/python3webspider/content/5.2.1-MySQL%E5%AD%98%E5%82%A8.html 在 Python2 中,连接 MySQL 的库大多是使用 MySQLDB,但是此库官方并不支持 Python3,所...

2018-08-26 21:51:24

阅读数 316

评论数 0

【网络爬虫】CSV文件存储

CSV,全称叫做 Comma-Separated Values,中文可以叫做逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据。该文件是一个字符序列,可以由任意数目的记录组成,记录间以某种换行符分隔,每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符,不过所有记录都有...

2018-08-26 21:46:36

阅读数 129

评论数 0

【网络爬虫实战】使用代理处理反爬虫爬取微信文章

流程框架 抓取索引页内容:利用requests请求目标站点,得到索引页网页HTML代码,返回结果 代理设置:如果遇到302状态码,则证明IP被封,切换代理重试 分析详情页内容:请求详情页,分析得到标题、正文等内容 将数据保存到数据库: 将结构化数据保存到MongoDB 步骤 1、分析网页...

2018-08-22 13:25:31

阅读数 758

评论数 0

【网络爬虫】Requests库详解

原文见:[Requests库详解](https://www.jianshu.com/p/ada99b7880a6) 由于最近工作中,与同事对接模拟手机浏览器进行广告模拟跳转。又一次接触用到爬虫的知识,以前用过urllib + bs4 + selenium定向爬取网易一元夺...

2018-08-22 12:08:15

阅读数 259

评论数 0

【Scrapy】Spiders用法

Spiders Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。   对spider来说,爬取的循环类似下文: 1...

2018-08-22 00:13:59

阅读数 104

评论数 0

【Scrapy】Scrapy命令行

命令行工具(Command line tools) Scrapy是通过 scrapy 命令行工具进行控制的。 这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。 对于子命令,我们称为 “command” 或者 “Scrapy commands”。 Scrapy tool 针对...

2018-08-21 22:49:41

阅读数 116

评论数 0

【Scrapy】Scrapy框架安装及基本使用

Linux下安装Scrapy相关依赖包 sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev Scrapy基本用法 ...

2018-08-21 00:59:39

阅读数 77

评论数 0

【网络爬虫实战】PySpider框架基本使用及抓取TripAdvisor

  启动 pyspider 时 Could not create web server listening on port 25555 报错 输入netstat -atunlp 命令,来显示路由表、实际的网络连接以及每一个网络接口设备的状态信息 找到phantomjs 进程,原来phanto...

2018-08-20 19:47:25

阅读数 453

评论数 0

【网络爬虫实战】使用Selenium模拟浏览器抓取淘宝商品美食信息

  目标网站分析 打开淘宝网站,关键字搜索美食,根据分析ajax请求的方法查看请求url信息,发现比较多而且杂乱而且preview中不包含商品信息,直接请求或分析ajax很繁琐,因此不采用分析ajax抓取。 这里改用selenium模拟浏览器,(selenium可以驱动浏览...

2018-08-20 18:13:07

阅读数 538

评论数 0

【网络爬虫实战】分析ajax请求并抓取头条街拍美图

目标网站分析 1、目标网站分析 进入头条网站,关键字搜索:街拍,出现的页面称为 索引页,如下:   上图中的Request URL为请求地址,取出其中的部分信息 https://www.toutiao.com/search_content/? 与下图中的请求头参数拼接,用于构造u...

2018-08-19 20:48:03

阅读数 342

评论数 0

【网络爬虫实战】猫眼电影Top100

抓取首页:http://maoyan.com/board/4?offset=0 代码: # -*- coding:utf-8 -*- import requests from requests.exceptions import RequestException import re # ...

2018-08-19 17:13:32

阅读数 163

评论数 0

【多线程 待解决】爬取糗事百科

代码: # -*- coding: utf-8 -*- ''' import urllib.request import re import ssl import urllib.error headers = ("User-Agent","...

2018-06-08 16:04:20

阅读数 48

评论数 0

【待解决】爬取指定关键词的文章(Python3)

# -*- coding: utf-8 -*- # http://weixin.sogou.com/ import re import urllib.request import time # sleep()方法 实现延时 import urllib.error # 为使用代理服务器爬一个...

2018-06-08 13:09:19

阅读数 749

评论数 0

【网络爬虫实战】抓取腾讯视频评论

首先 腾讯视频(青云志)中的评论是有多页的,涉及到翻页。猜测评论不是都在网页源码中的,查看网页源码确实不在。 第二, 这里通过fiddler获得firefox中新的js网页的url,然后打开此网页。这里还不能发现什么规律。 第三, 再次点击更多,通过fiddler获取js网页的url,此...

2018-06-08 11:45:58

阅读数 1439

评论数 0

基于Scrapy框架的网络爬虫搭建

有很多开源的网络爬虫,如果我们掌握某一种或多种开源的爬虫工具,再我们获取数据的道路上会如虎添翼,事半功倍。这里我介绍一下我对于Scrapy网络爬虫的学习和搭建。 Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下: Scrapy要包括了以下组件: 引擎,用来处理...

2018-06-05 19:05:26

阅读数 393

评论数 0

Python入门爬虫精华版

Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。 首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-网络爬虫 当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入h...

2018-06-05 18:01:08

阅读数 134

评论数 0

提示
确定要删除当前文章?
取消 删除