jieba中文分词组件

原文地址:https://github.com/fxsjy/jieba jieba简介 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best ...

2019-05-21 18:16:27

阅读数 15

评论数 0

XPath常用函数

目录 有关数值的函数 有关字符串的函数 关于布尔值的函数 有关序列的函数 一般性的函数 测试序列容量的函数 Equals, Union, Intersection and Except 合计函数 生成序列的函数 上下文函数 函数示例 摘自W3School官方文档:http:...

2019-05-20 10:03:43

阅读数 26

评论数 0

在python中连接MongoDB集群(MongoDB Cluster)

建立了一个MongoDB集群,集群名称 replSet=rs0,包含以下3 个节点: 172.16.250.233:27017 # SECONDARY 172.16.250.234:27017 # PRIMARY 172.16.250.237:27017 # SECONDARY 集群的 te...

2019-05-16 16:35:31

阅读数 80

评论数 0

jieba中文分词组件的词性类型

jieba 中文分词组件具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adject...

2019-05-15 17:43:19

阅读数 65

评论数 0

基于Scrapy的IP代理池搭建

目录 一、为什么要搭建爬虫代理池 二、搭建思路 三、搭建代理池 items.py kuai_proxy.py middlewares.py pipelines.py settings.py utils.py 一、为什么要搭建爬虫代理池 在众多的网站防爬措施中,有一种是根据ip...

2019-05-15 16:27:54

阅读数 56

评论数 0

-bash: wget: command not found解决方法

Linux下使用 wget命令时提示如下信息: -bash: wget: command not found 很显然,问题出现的原因是由于没有安装wget命令,可以通过以下两种方法来安装: 1、rpm安装 wget的RPM包下载地址:http://www.rpmfind.net/linu...

2019-05-14 13:56:46

阅读数 73

评论数 0

Centos7 关闭防火墙

CentOS 7.0默认使用的是firewall作为防火墙,使用iptables必须重新设置一下 1、直接关闭防火墙 systemctl stop firewalld.service# 停止firewall systemctl disable firewalld.service# 禁止fir...

2019-05-14 13:46:12

阅读数 29

评论数 0

Python爬虫代理池搭建

目录 一、为什么要搭建爬虫代理池 二、搭建思路 三、代码实现 ipproxy.py settings.py proxy_queue.py proxy_util.py proxy_crawlers.py run.py 四、代理测试 一、为什么要搭建爬虫代理池 在众多的网站防爬...

2019-05-13 15:37:19

阅读数 64

评论数 0

Scrapy-Redis之RedisSpider与RedisCrawlSpider

目录 RedisSpider代码示例 RedisCrawlSpider代码示例 在上一章《Scrapy-Redis入门实战》中我们利用scrapy-redis实现了京东图书爬虫的分布式部署和数据爬取。但存在以下问题: 每个爬虫实例在启动的时候,都必须从start_urls开始爬取,即每个爬...

2019-05-08 18:12:52

阅读数 20

评论数 0

Scrapy-Redis源码解读

在上一章《Scrapy-Redis入门实战》中,我们在一个普通的Scrapy项目的settings.py文件中仅额外增加了如下几个配置就使项目实现了基于Redis的Requests请求过滤和Items持久化两大功能。 ######################################...

2019-05-07 14:54:32

阅读数 21

评论数 0

Scrapy-Redis入门实战

目录 简介 Scrapy-Redis特性 Scrapy-Redis示例 开发环境 创建项目 定义Item 创建Spider 修改配置 启动爬虫 参考文章 简介 scrapy-redis是一个基于redis的scrapy组件,用于快速实现scrapy项目的分布式部署和数据爬取...

2019-05-05 19:28:13

阅读数 23

评论数 0

Scrapy--模拟登录

目录 为什么要模拟登录 请求时携带Cookies 发送Post请求模拟登录 scrapy.FormRequest() scrapy.FormRequest.from_response() 参考文章 为什么要模拟登录 有些网站是需要登录之后才能访问的,即便是同一个网站,在用户登录前后...

2019-05-05 15:53:21

阅读数 59

评论数 0

Python--使用logging模块

目录 认识logging logger handler filter formater 配置logging basicConfig fileConfig 1. 编写配置文件 2.通过fileConfig()函数读取配置 dictConfig 参考文章 认识logging ...

2019-04-29 16:24:02

阅读数 44

评论数 0

Scrapy--CrawlSpider

目录 CrawlSpider简介 rules parse_start_url(response) Rule(爬取规则) Link Extractors CrawlSpider实战 创建项目 定义Item 创建CrawlSpider 编写Pipeline 启动爬虫 Crawl...

2019-04-28 11:54:12

阅读数 41

评论数 0

Scrapy--下载器中间件(Downloader Middleware)

目录 下载器中间件简介 自定义下载器中间件 RandomUserAgentMiddleware RandomProxyMiddleware 激活下载器中间件 内置下载器中间件 CookiesMiddleware DefaultHeadersMiddleware DownloadT...

2019-04-25 17:23:31

阅读数 3193

评论数 0

Scrapy--入门实战

目录 Scrapy简介 安装Scrapy Scrapy工作流程 Scrapy实战 创建项目 定义Item 创建Spider 编写Pipeline 启动爬虫 参考文章 Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖...

2019-04-24 18:32:55

阅读数 3239

评论数 0

CentOS解决-bash: vim: command not found

原文地址:https://www.cnblogs.com/wenqiangwu/p/3288349.html 那么如何安裝 vim 呢? 输入rpm -qa|grep vim 命令, 如果 vim 已经正确安裝,会返回下面的三行代码: root@server1 [~]# rpm -qa|g...

2019-04-16 13:52:31

阅读数 3326

评论数 0

Python中使用XPath

目录 XPath简介 XPath语法 选取节点 谓语(Predicates) 选取未知节点 选取若干路径 XPath 轴 XPath 运算符 使用lxml 摘自W3School官方文档:http://www.w3school.com.cn/xpath/index.asp XP...

2019-04-15 16:07:16

阅读数 9012

评论数 0

Python中使用正则表达式

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 下表整理了一些正则表达式中经常用到的语法: 语法 描述 表达式示例 匹配示例 字符 普通字符 匹配自身 abc abc \t 匹配一个制表符 ...

2019-04-13 16:18:36

阅读数 8366

评论数 0

使用Python解析JSON

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。Python3 中可以使用 json 模块来对 JSON 数据进行编解码,主要包含了下面4个操作函数: 提示:所谓类文件对象指那些具有read()或者 write()方法的对象,例如,f = op...

2019-04-13 12:44:02

阅读数 10391

评论数 0

提示
确定要删除当前文章?
取消 删除