python爬虫
京金
工地搬砖工,美团外卖员,申通快递员,KTV跑腿小哥。
展开
-
python3 requests
# -*- coding:utf8 -*-import requests#requests.get. test(),content().encode('utf8'),response.url,response.def getRsp_1(): response = requests.get('https://www.baidu.com') # print(type(resp...原创 2018-04-30 22:25:14 · 150 阅读 · 0 评论 -
python3 selenium+webdriver+chrome
# -*- coding:utf8 -*-from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import Selectfrom selenium.webdriver.common.action_chains import A...转载 2018-04-07 08:35:01 · 3344 阅读 · 0 评论 -
urllib库python2和python3具体区别
转载来源:http://blog.csdn.net/whatday/article/details/54710403Python 2 namePython 3 nameurllib.urlretrieve()urllib.request.urlretrieve()urllib.urlcleanup()urllib.request.urlcleanup()urll转载 2018-01-31 09:35:36 · 151 阅读 · 0 评论 -
scrapy学习小结
1.scrapy新建爬虫项目:scrapy startproject 项目名如:scrapy startproject itcast[root@VM_131_54_centos pachong]# tree itcast itcast |– itcast | |– init.py | |– items.py #项目的数据容器文件,主要用来定义我们要获取的数据 |转载 2018-01-02 17:46:00 · 529 阅读 · 0 评论 -
51job的scrapy爬虫
ps:遇到了几个坑,1。自己写的正则以为没问题,结果实际没匹配到。2。allowed_domains = [‘51job.com’] 。刚开始是search.51job.com。但是我的rule中的一个是另个一个域名的,所以都被过滤掉了。查看debug日志才发现。3。vim缩进问题,在vim中看不出来。nano下编辑发现了。主要更改的文件如下: 1)pipeline.pyimport jsonc原创 2018-01-12 10:34:29 · 529 阅读 · 0 评论 -
(转)python scrapy rule
原文链接:http://blog.csdn.net/wqh_jingsong/article/details/56865433 一般爬虫的逻辑是:给定起始页面,发起访问,分析页面包含的所有其他链接, 然后将这些链接放入队列,再逐次访问这些队列,直至边界条件结束。 为了针对列表页+详情页这种模式, 需要对链接抽取(link extractor)的逻辑进行限定。 好在scrapy已经提转载 2018-01-11 15:32:50 · 351 阅读 · 0 评论 -
python 百度翻译post请求
$cat youdao.py #encoding:utf8import sysimport urllib2from lxml import etreeimport jsonimport urllibfrom optparse import OptionParserua_header = {"User-Agent": "Mozilla/5.0 (Windows NT 1原创 2017-12-25 04:58:25 · 2064 阅读 · 0 评论 -
python 爬虫初试
1。 )最简单爬虫:#encoding:utf-8import urllib2ua_headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36"}request = urll原创 2017-11-02 14:31:23 · 403 阅读 · 0 评论 -
python urllib2
前提:使用的是python2.7。python3对urllib2做了改动。 ++++++++++++++++++++++++++++++++++1.) urlopenurllib2.urlopen(url [,data [,timeout [,cafile [,capath [,cadefault [,context]]]]] )打开URL url,可以是一个字符串,也可以是一个Request对转载 2017-11-15 11:17:36 · 341 阅读 · 0 评论 -
关于有道翻译的POST请求的errorcode 50问题
http://bbs.fishc.com/thread-86581-1-1.html 直接附上帖子地址。转载 2017-11-13 07:12:05 · 4280 阅读 · 0 评论 -
fiddler替换线上js进行本地调试
https://blog.csdn.net/sq574146616/article/details/79324009转载 2019-07-13 10:43:06 · 707 阅读 · 0 评论