爬虫
文章平均质量分 66
遇见编程
写代码就是在写人生
展开
-
爬虫--有道翻译的加盐破解方式
一、需求:翻译二、1. 根据需求寻找网站,这里以有道翻译为例,原来写过一篇关于百度翻译的案例 可自行查看,http://fanyi.youdao.com/2.找到ajax的那个request3.通过network->XHR, 翻译触发条件,能够找到post,headers,body 却需要构造i,salt,sign ...原创 2018-08-14 23:14:12 · 881 阅读 · 0 评论 -
爬虫与反爬的斗争
转载 2018-09-21 10:43:22 · 528 阅读 · 0 评论 -
爬虫--selenium爬取带验证码的豆瓣网
from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A...原创 2018-08-21 22:28:01 · 529 阅读 · 0 评论 -
爬虫--selenium简单使用
from selenium import webdriverimport timedriver = webdriver.Chrome()time.sleep(3)url = 'http://www.baidu.com'driver.get(url)driver.find_element_by_id('kw').send_keys("范冰冰")driver.find_elemen...原创 2018-08-21 22:26:56 · 214 阅读 · 0 评论 -
爬虫--多线程爬取可以使用的西刺代理ip
import requestsfrom lxml import etreeimport timeimport multiprocessingdef get_all_proxy(queue): url = 'http://www.xicidaili.com/nn/1' headers ={ 'User-Agent': 'Mozilla/5.0 (Win...原创 2018-08-21 22:24:50 · 533 阅读 · 0 评论 -
爬虫--多进程爬取妹子图
import requestsfrom lxml import etreeimport osimport multiprocessingfrom multiprocessing import Queue, Pool# 下载图片def download_img(img_url_referer_url): # print(img_url) (img_url, refe...原创 2018-08-20 23:53:06 · 697 阅读 · 0 评论 -
爬虫--lxml爬取妹子图
import requestsfrom lxml import etreeimport os# 下载图片def download_img(img_url,referer): # print(img_url) headers = { 'referer': referer, 'User-Agent': 'Mozilla/5.0 (Windo...原创 2018-08-20 22:17:52 · 821 阅读 · 1 评论 -
爬虫--爬取网页信息存储到Mysql数据库
有两种方法进行处理特殊内容的存储:第一种:使用 repr 函数 repr() 函数将对象转化为供解释器读取的形式。import jsonimport requestsimport pymysqlclass mysql_conn(object): # 魔术方法 ,初始化 , 构造函数 def __init__(self): ...原创 2018-08-16 22:40:01 · 3108 阅读 · 0 评论 -
爬虫--百度翻译的简单爬取
from urllib import request,parsefrom urllib.error import HTTPError,URLError# 一、get(url, headers = None)# 定义get方法,获取参数,返回爬取信息def get(url, headers = None): return urlrequests(url, headers = ...原创 2018-08-13 21:54:40 · 1090 阅读 · 0 评论 -
爬虫--雪球网爬取(requests 和 request 的两种方法)
import jsonfrom urllib import request# 因为不能访问, 所以加个请求头试试headers = { #'Accept': '*/*', #'Accept-Encoding': 'gzip, deflate, br', #'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', #'Con...原创 2018-08-15 23:32:28 · 2710 阅读 · 0 评论 -
爬虫--爬取人人网案例之封装篇(三)
首先,这个是封装函数:from urllib import request,parsefrom urllib.error import HTTPError,URLError# 保存cookiefrom http import cookiejarclass session(object): def __init__(self): # 通过对象保存cookie...原创 2018-08-15 00:02:19 · 282 阅读 · 0 评论 -
爬虫--爬取人人网案例登录(二)
import jsonfrom urllib import request,parse# 保存cookiefrom http import cookiejar# 通过对象保存cookiecookie_object = cookiejar.CookieJar()# handler 对应着一个操作 (HTTPCookieProcessor:就是HTTP Cookie 的处理器)h...原创 2018-08-14 23:46:00 · 420 阅读 · 0 评论 -
爬虫--爬取人人网案列(一)
这里导入的包是用的这个https://blog.csdn.net/MR_HJY/article/details/81637745 from Day1.fengzhuang_all import get# urlurl = 'http://www.renren.com/966927992'# 构造headersheaders = { # 'Accept': 'text/h...原创 2018-08-14 23:26:19 · 891 阅读 · 0 评论 -
Python爬虫--app数据抓取(1)
一、1.安卓端模拟器环境搭建2.抓包利器使用3.自动化控制工具使用4.利用Python编写爬虫app数据5.打造基于docker的多app端数据抓取系统二、1.数据分析2.用户画像3.统计系统4.商业竞争三、1.简单app里的数据比web端更容易抓取,反爬虫也没有那么强,大部分也都是http/https协议,返回的数据类型大多数为j...原创 2019-04-03 09:50:37 · 832 阅读 · 0 评论