fiery_heart的博客

学习,进步

用python向MongoDB插入时间字段

import pymongo from dateutil import parser dateStr = "2019-05-14 01:11:11" myDatetime = parser.parse(dateStr) client = pymongo.MongoClient(...

2019-05-15 09:32:50

阅读数 2

评论数 0

python爬虫

整理一些平常看到的关于爬虫的文章 2019-01-03 Python爬虫开源项目代码,爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等 代码整理

2019-01-03 18:10:42

阅读数 17

评论数 0

es插件elasticsearch-head的安装

下载 wget https://github.com/mobz/elasticsearch-head/archive/master.zip 解压 unzip master.zip elasticsearch-head是一个提供图形化的插件,其图形化是基于node.js的,所以我们...

2018-12-28 15:57:09

阅读数 17

评论数 0

centos7下安装es5.*

首先需要安装java的jdk 执行命令yum -y list java*查看可安装java版本。执行成功后可以看见如下的结果 选择一个java版本进行安装,一定要选择 -devel 的安装,因为这个安装的是jdk,而不带这个安装下来的是jre。执行以下命令进行安装 yum install -...

2018-12-28 15:56:32

阅读数 29

评论数 0

centos7下mongodb安装和配置

转:centos7下mongodb安装和配置

2018-11-23 17:56:38

阅读数 19

评论数 0

python一些基础

list、tuple、dict、set 共性:都是可以迭代的。 名称 可变性 值 可重复性 是否有序 其他特点 list 可变,可以修改元素 [1,2] 值可以重复 有序 相比于dict拥有占用内存小的特点,常用于堆栈的处理 se...

2018-10-15 10:30:58

阅读数 31

评论数 0

在windows上安装和启动Elasticsearch+kibana

首先需要安装JDK 至少需要1.8.0_73以上版本,参考这篇文章https://blog.csdn.net/u012934325/article/details/73441617/ 下载和解压缩Elasticsearch安装包并运行elasticsearch.bat elasticsear...

2018-09-17 19:44:00

阅读数 312

评论数 0

使用scrapy抓取人民网体育、社会模块

分析网站 刚开始看完网站的这两个模块,感觉很麻烦,需要写很多解析函数,写很多规则,对两个模块下的每个小模块逐个进行处理,然后就朝着这个方向开始写,写到一半发现,我不仅需要判断这个模块里有没有图片,还要判断这个模块属不属于图集,感觉应该是自己方向错了,于是就重新观察网站,结合之前写的解析,最后分析...

2018-09-03 14:49:13

阅读数 165

评论数 0

scrapy的信号(signal)以及对下载中间件的一些总结

直接往redis里记录一下,我今天爬了多少数据 是否和我预期一样 爬虫状态码异常,你怎么查 我的爬虫没任务了它就会退出了,我不想它退出怎么办 爬虫关闭了,我不想看进程,我希望给我来个邮件 怎么办 我现在给你一批url让你去爬,完了,我待会再给你一批。时间不确定 你怎么办? 以上...

2018-08-31 00:07:46

阅读数 727

评论数 0

scrapy-crawlspider爬取某新闻网站住房有关文章

首先创建项目,创建爬虫 scrapy startproject qianlongwang # 创建了一个项目 在项目的根目录下,创建爬虫,一个项目可以有多个爬虫 scrapy genspider -t crawl fangchan xxxx.com # 创建了一个名为fan...

2018-08-29 17:34:15

阅读数 210

评论数 0

xpath

选取div[@class=”author clearfix”]节点的同级节点的第一个a标签 div[@class=”author clearfix”]/following-sibling::a[1] 选取当前节点下所有文本内容 content = site.xpath(‘string(...

2018-08-29 03:03:59

阅读数 53

评论数 0

logging模块的使用

import logging # 创建logger logger = logging.getLogger() logger.setLevel(logging.INFO) # 创建handler,这个handler是输出到文件用的 handler = logging.FileHandler('tie...

2018-08-28 18:30:29

阅读数 44

评论数 0

协程爬取贴吧里发帖内容(redis做任务队列,mongo存储)

是用redis做任务队列时,要思考: 用什么数据类型来做任务队列 怎样才能防止重复爬取 首先了解一下redis可以存储什么数据类型: 字符串String 哈希hash 列表list 集合set 有序集合zset 浏览完这几种数据类...

2018-08-28 01:13:54

阅读数 106

评论数 0

多线程爬取一点资讯

首先观察网站,明确爬取目标 经过观察,发现这个网站的数据都是异步加载的,而我此次爬取的目标,是一点资讯-段子模块下的内容 分析目标站点 既然是异步加载的,就可以在控制台的 Network标签下的xhr里面可以看到,异步请求的地址。如下 还有可以看到请求的参数 尝试请求数据 有了...

2018-08-24 21:37:18

阅读数 725

评论数 4

安装anadonda里没有的包

在需要用python调用js代码的时候,发现没有所需要的包:pyexecjs 当我用 coanda install pyexecjs 这个命令安装的时候,安装不上。 解决方法: - 打开anaconda的 Anaconda Prompt(anaconda的命令行) - 在命令行中输入 ...

2018-08-23 16:28:14

阅读数 236

评论数 0

一个简单的基于async/aiohttp的爬虫

import asyncio import aiohttp from lxml import etree import queue urlQ = queue.Queue() f = open("title22.txt", &qu...

2018-08-21 22:09:18

阅读数 533

评论数 0

python3多线程爬虫(初级)

多线程爬虫,主要是玩队列,队列玩明白了,多线程自然也就起来了。 #导入各种包 import threading import queue impot json from lxml import ertee 定义爬取类,需要继承多线程: class down_spider(Threading....

2018-08-03 10:08:08

阅读数 1134

评论数 2

python2编码问题

https://blog.csdn.net/huludan/article/details/59518325 https://blog.csdn.net/qq_39551311/article/details/79459085

2018-07-31 10:34:09

阅读数 29

评论数 0

WSGI协议

在去了解wsgi协议之前,先思考一个问题:为什么我们使用flask、django等web框架的时候,将一个url指定到一个函数上面,前端页面在访问这个页面的时候,会调用这个函数?我们并没有做一些映射啊,http请求的处理啊之类的事情,但是为什么会自动处理这个请求,调用这个函数,并自动返回带响应头页...

2018-07-27 23:28:59

阅读数 194

评论数 0

一次请求到响应的过程

1. 在浏览器输入一个网址或在页面里点击一个超链接 2. 本机上的dns开始解析,看最近这两天有没有访问过这个网站(本机dns最多存储1000个最近访问的网址),有的话直接返回。没有的话,本机dns会将这个网址发送给dns根服务器 3. dns根服务器收到这个网址以后,进行解析(具体解析...

2018-07-27 16:31:06

阅读数 427

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭