u014229742的博客

一起学习,共同进步!

read_from_mongo_to_csv

import csv from pymongo import MongoClient # 建立mongo连接 client = MongoClient('192.11.11.11', 27017) # client.数据库名 db = client.Flight # 用户名密码认证 db.au...

2019-01-04 10:10:47

阅读数 30

评论数 0

scrapy中间键如何使用代理IP和用户代理

1.middleware.py中代码 class IPPOOlS(HttpProxyMiddleware): def __init__(self, ip=''): self.ip = ip # 请求处理 # 先随机选择一个IP def proce...

2018-11-27 19:14:24

阅读数 297

评论数 0

构造请求头访问页面

url1 = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=530&workExperience=-1&education=-1&...

2018-11-21 22:53:02

阅读数 115

评论数 0

一个简单的获取天气例子

import requests from lxml import etree headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge...

2018-11-21 22:48:57

阅读数 127

评论数 0

scrapy爬虫不调用process_item函数的问题

爬虫的时候需要process_item函数一直不执行,后来百度找到原因: 1、正确配置settings.py文件 2、爬虫文件parse()函数一定要有yield语句 即yield item

2018-11-06 15:38:18

阅读数 416

评论数 0

获取json语句中的某一字段,字段可以能为空,如何防止程序异常终止

有时候我们获取json语句中的某一字段,字段可以能为空。可以采用以下两种方法来编写代码避免程序因找不到目标对象而终止。 # try: # label = all_json2['APP']['label'] # 标签 # except: # label = '' label = a...

2018-11-02 15:15:14

阅读数 131

评论数 0

如何将csv中内容写入到redis中

import csv import redis r = redis.StrictRedis(host='47.115.124.39', port=6379, db=1, password='123456') with open('tets.csv', 'rt', encoding='utf-8'...

2018-11-02 15:12:33

阅读数 582

评论数 0

Linux系统上运行scrapy框架代码环境安装教程

1: we have to install python enviroment.Linux system has its own python,but the edtion maybe too old.we can use it or install our own python.The way ...

2018-11-01 15:18:10

阅读数 181

评论数 0

在linux上运行爬虫任务报错:Overridden settings******

在scrapy-setting中将redis、mongodb的IP以及端口号修改为外网IP以及端口号

2018-11-01 14:22:23

阅读数 224

评论数 0

mongoDB基本命令

1.查看表中数据总数 db.getCollection(‘company_info’).find().count()

2018-10-30 18:20:41

阅读数 41

评论数 0

fiddler连接模拟器配置

1.fiddler端设置截图 2.配置好以上设置后,查看本机IP,在 手机端设置手动代理。 3.在手机端下载fiddler证书,打开浏览器,输入:本机IP:8888,安装证书 ...

2018-10-29 16:15:50

阅读数 441

评论数 0

大象代理API提取

提取大象代理API运行代码一致提示Starting new HTTP connection (1): error|没有找到符合条件的ip:80 ,试了好几次还是不行啊,最后终于成功了。特地截图保存提取方法。 ...

2018-10-29 15:58:21

阅读数 496

评论数 0

搭建scrapy环境中一直报错,需要安装visual-cpp-bulit-tools

自己搭建了两次scrapy环境都遇到c++错误,可是每次都没找到合适的c++环境,特将此下载链接附上。 https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/

2018-10-26 19:42:11

阅读数 43

评论数 0

如何从html中获取内容

如何获取页面信息 有时需要爬取的网页,我们无法查看到其源码,页没办法看到其json,此时,是不是有点绝望?今天遇到一个爬虫网站,http://www.zjzfcg.gov.cn/innerUsed_noticeDetails/index.html?noticeId=3722029 页面有点类似于...

2018-10-26 19:29:11

阅读数 1036

评论数 0

构造data时双引号导致403错误

for j in column: print(j) for i in range(1, 4): data = {"keyword": "%s" % j, ...

2018-10-25 10:12:21

阅读数 16

评论数 0

how to get the company name fast

import json import random from time import sleep import requests from lxml import etree headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; ...

2018-10-15 15:17:10

阅读数 24

评论数 0

how to get token

def get_token(self): import requests import json login_headers = { 'Hos': 'biz.ggosb.com', 'Connectio...

2018-10-15 15:14:28

阅读数 69

评论数 0

简单文件读取和写入代码

import csv fl = open(‘names.csv’,‘w’,encoding=‘utf-8’) fl.write(’"’+‘name’+’"’) fl.write(’\n’) with open(‘zq_changchun1688.csv’,‘rt...

2018-10-15 11:07:02

阅读数 40

评论数 0

爬虫输出的名字为空字符串{'name': ''}

可以写一个简单的判断,当长度不为0才执行插入操作 if len(companyName) > 0: yield item

2018-10-14 23:09:14

阅读数 99

评论数 0

自我检讨:POST和GET

今天一直在跑一个程序,代码和以前写的也一样,可是一直没有运行出来!一直在找错误,问了朋同事,百度。最后在下午4点的时候才发现错误!错在哪里? 吐血!!! POST和GET请求没有自习区分,代码是修改了一遍又一遍,可是关键的请求没有搞对!这个错误已经第二次遇到了,前天也是这个错误困住了我两个小时...

2018-10-11 16:05:06

阅读数 22

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭