漂泊者_LGD-CSDN博客

原创 python异步爬虫实战示例

gevent简介gevent是一个python的并发库，它为各种并发和网络相关的任务提供了整洁的API。gevent中用到的主要模式是greenlet，它是以C扩展模块形式接入Python的轻量级协程。 greenlet全部运行在主程序操作系统进程的内部，但它们被协作式地调度。实战通过用gevent把异步访问得到的数据提取出来。在有道词典搜索框输入“hello”按回车。观察数据请求情...

2019-06-28 00:52:37 978

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）有些网站需要登录后才能访问某个页面，在登录之前，想抓取某个页面内容是不允许的。那么可以利用Urllib2库保存登录的Cookie，然后再抓取其他页面就达到目的了。1. Cookielibcookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来...

2019-06-20 23:28:59 1205

原创 python爬虫智能化解析

智能化解析爬虫的智能化解析就是不再需要我们针对某一些页面来专门写提取规则了，我们可以利用一些算法来计算出来页面特定元素的位置和提取路径。比如一个页面中的一篇文章，我们可以通过算法计算出来，它的标题应该是什么，正文应该是哪部分区域，发布时间是什么等等。其实智能化解析是非常难的一项任务，比如说你给人看一个网页的一篇文章，人可以迅速找到这篇文章的标题是什么，发布时间是什么，正文是哪一块，或者哪一块是...

2019-06-15 23:17:39 1417

原创 python常用爬虫框架汇总

一般比较小型的爬虫需求，可以考虑直接使用requests库 + bs4解决，再麻烦点就使用selenium解决js的异步加载问题。相对比，较大型的需求才使用框架，主要是便于管理以及扩展等。Python常用爬虫框架框架介绍项目地址ScrapyScrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中...

2019-06-14 23:21:02 1227

原创 [Python3网络爬虫开发实战] --使用Selenium爬取淘宝商品

利用Selenium抓取淘宝商品并用pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息，并将其保存到MongoDB。1. 准备工作确保已经正确安装好Chrome浏览器并配置好了ChromeDriver；另外，还需要正确安装Python的Selenium库；最后，还对接了PhantomJS和Firefox，请确保安装好PhantomJS和Firefox并配置好了Ge...

2019-06-13 22:53:40 1108

原创 [Python3网络爬虫开发实战] --Splash负载均衡配置

用Splash做页面抓取时，如果爬取的量非常大，任务非常多，用一个Splash服务来处理的话，未免压力太大了，此时可以考虑搭建一个负载均衡器来把压力分散到各个服务器上。这相当于多台机器多个服务共同参与任务的处理，可以减小单个Splash服务的压力。1. 配置Splash服务要搭建Splash负载均衡，首先要有多个Splash服务。假如这里在4台远程主机的8050端口上都开启了Splash服务，...

2019-06-12 23:23:42 269

原创 [Python3网络爬虫开发实战] --Splash的使用

Splash是一个JavaScript渲染服务，是一个带有HTTP API的轻量级浏览器，同时它对接了Python中的Twisted和QT库。利用它同样可以实现动态渲染页面的抓取。1. 功能介绍利用Splash可以实现如下功能：异步方式处理多个网页渲染过程；获取渲染后的页面的源代码或截图；通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度；可执行特定的JavaScript脚...

2019-06-10 23:18:33 1738 2

原创 [Python3网络爬虫开发实战] --Selenium的使用

1. 介绍Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。对于一些JavaScript动态渲染的页面来说，此种抓取方式非常有效。2. Selenium的基本使用Selenium的基本功能from selenium import webdriverfrom selenium.webdr...

2019-06-07 23:11:59 719

原创文档自动分类模型--分类算法思路总结

简介文本分类作为自然语言处理任务之一，被广泛应用于解决各种商业领域的问题。文本分类的目的是将文本/文档自动地归类为一种或多种预定义的类别。常见的文本分类应用如下：理解社交媒体用户的情感识别垃圾邮件与正常邮件自动标注用户的查询将新闻按已有的主题分类主要步骤文本分类属于有监督机器学习任务，这是因为文本分类任务利用一个包含文本/文档及其对应类标的有标注数据集来训练一...

2019-06-06 23:28:22 1967

原创 [Python3网络爬虫开发实战] --Beautiful Soup总结

Beautiful Soup的用法基本简单的总结:推荐使用lxml解析库，必要时使用html.parser。节点选择筛选功能弱但是速度快。建议使用find()或者find_all()查询匹配单个结果或者多个结果。如果对CSS选择器熟悉的话，可以使用select()方法选择。1.简介Beautiful Soup就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数...

2019-06-05 23:39:09 274

原创常用正则表达式汇总

正则表达式是处理字符串的强大工具，它有自己特定的语法结构，能够实现字符串的检索、替换、匹配验证等功能常用的匹配规则模式描述\w匹配字母、数字及下划线\W匹配不是字母、数字及下划线的字符\s匹配任意空白字符，等价于[\t\n\r\f]\S匹配任意非空字符\d匹配任意数字，等价于[0-9]\D匹配任意非数字的字符\A匹配字符串开...

2019-06-04 23:04:27 470

原创 [Python3网络爬虫开发实战] -爬取电影排行数据

爬取猫眼电影排行利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容，选用正则表达式来作为解析工具。主要目标提取出猫眼电影TOP100的电影名称、时间、评分、图片等信息，提取的站点URL为http://maoyan.com/board/4，提取的结果会以文件形式保存下来。准备工作确保已经正确安装好了requests库。抓取分析抓取的目标站点为http://maoya...

2019-06-03 22:34:43 2537

原创 [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图

[Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图学习笔记--爬取今日头条街拍美图准备工作抓取分析实战演练学习笔记–爬取今日头条街拍美图尝试通过分析Ajax请求来抓取今日头条的街拍美图，抓取完成之后，将每组图片分文件夹下载到本地并保存下来。准备工作安装好requests库抓取分析首先要分析抓取的逻辑。打开今日头条的首页http://www.toutiao.com/...

2019-06-01 23:10:42 802 1

原创 python替换word中的关键文字(使用通配符)

环境：Python3.6本文主要是通过win32com操作word，对word中进行常用的操作。本文以替换为例，讲解一下如何使用Python在word中使用“通配符模式”（类似于正则表达式）替换文本内容。#!/usr/bin/env python# -*- coding:utf-8 -*-import osimport win32comfrom win32com.client...

2018-12-19 14:37:33 7847 10

u012922806的博客