- 博客(11)
- 收藏
- 关注
原创 多线程爬取xici代理,查找可用代理
import requestsfrom lxml import etreeimport timeimport multiprocessing# 耗时 84.26855897903442 5# 耗时 44.181687355041504 10# 耗时 29.013262033462524 20# 耗时 22.825448036193848 50def get_all_prox...
2018-08-23 22:46:26 935
原创 代理精灵 封装
import requestsclass ip_getter(object): def __init__(self): self.ip_proxy_str = get_ip_string() def update_ip_proxy_str(self): self.ip_proxy_str = get_ip_string() p...
2018-08-23 22:43:16 271
原创 bs4 简单用法
from selenium import webdriverimport timeoption_chrome = webdriver.ChromeOptions()option_chrome.add_argument('--headless')driver = webdriver.Chrome(chrome_options=option_chrome)time.sleep(1)u...
2018-08-23 22:42:20 375
原创 用代理爬取Bosszhipin
from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ...
2018-08-23 22:40:26 185
原创 爬取tencent 写入mysql
import requestsfrom lxml import etreeimport refrom mysqlhelper import MysqlHelperheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chro...
2018-08-23 22:36:44 148
原创 python3 写入MySQL 封装
import pymysql# mysql_coon 主要的功能就是, 将链接数据库的操作变成只连接一次#class mysql_conn(object): # 魔术方法, 初始化, 构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1', user='root', passw...
2018-08-15 22:44:49 746
原创 xueqiu网
import jsonimport requestsfrom mysql_test import mysql_conn# urllib 的相关操作如下url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&categ...
2018-08-15 22:43:18 467
原创 renren网
import jsonfrom urllib import request,parse#保存cookiefrom http import cookiejar#通过对象保存cookiecookie_obj = cookiejar.CookieJar()#handler 对应着一个操作handler = request.HTTPCookieProcessor(cookie_obj)...
2018-08-14 22:44:20 433
原创 简单的python爬虫封装 -- cookie
from urllib import request,parsefrom urllib.error import HTTPError,URLErrorfrom http import cookiejarclass Session(object): def __init__(self): cookie_obj = cookiejar.CookieJsr() ...
2018-08-14 22:43:19 469
原创 j简单的python爬虫封装
#导包from urllib import requestfrom urllib.error import HTTPError,URLError#传入urldef url_request(url,headers = None): #传入user_agent user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) Ap...
2018-08-13 22:54:21 201
原创 session 和 cookie的区别, 他们都是什么.
一、cookie: 访问网站时,第一次就会产生cookie,保存在本地,下一次访问网站的时候就会网站的服务器就会知道是谁访问了这个网站二、session: session是将用户的一些信息和配置纪录到服务器,在网站的we跳转的时候会保存session对象不会丢失,一直保持在会话控制中。会保存到服务器中。三、cookie和session的区别: ...
2018-08-13 22:20:11 166
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人