![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
cheng535
这个作者很懒,什么都没留下…
展开
-
人人网登陆
自己更改cookie的值from Day1.tuozhan_all import get# 0. url# 1. 构造headers# 2. 调用get函数# 3. 保存页面url = 'http://www.renren.com/966927992'headers = { #'Accept': 'text/html,application/xhtml+xml,a...原创 2018-08-14 20:34:44 · 3206 阅读 · 0 评论 -
多线程爬取西刺代理
import requestsfrom lxml import etreeimport timeimport multiprocessingdef get_all_proxy(queue): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Wind...原创 2018-08-21 19:33:29 · 326 阅读 · 0 评论 -
链家(beautifulsoup)
import requestsfrom bs4 import BeautifulSoupfor i in range(1,6): url = 'https://bj.lianjia.com/ditiezufang/rp%s/'%(i) response = requests.get(url) # with open('lianjia.html','wb') as ...原创 2018-08-23 21:04:14 · 357 阅读 · 0 评论 -
多进程爬取妹子图
import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): (img_url, referer) = img_url_referer_url print('Downloading ......' + img_url) headers = { ...原创 2018-08-20 22:05:38 · 344 阅读 · 0 评论 -
关于进程和线程的理解
定义:进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位. 线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.计算机中CPU负责计算,并且只负责计算,并不负责分配计算资源。计算资源是由操作系统分配的。 CPU在工作时每次只能运行一项任务,即只有CPU执行完一个任务之后才能进行下一项任务,因此...原创 2018-08-20 21:59:41 · 441 阅读 · 0 评论 -
爬虫:腾讯招聘
#mysqlhelper.pyimport pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py1011', cha...原创 2018-08-19 13:52:52 · 294 阅读 · 1 评论 -
爬虫:阳光电影
#mysqlhelper.pyimport pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py1011', cha...原创 2018-08-19 13:50:18 · 967 阅读 · 0 评论 -
Session与Cookie的区别
Session与Cookie的区别前提HTTP协议是无状态的协议。一旦数据交换完毕,客户端与服务器端的连接就会关闭,再次交换数据需要建立新的连接。这就意味着服务器无法从连接上跟踪会话。因此要跟踪用户的整个会话,常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。Session与Cooki...原创 2018-08-13 20:28:19 · 104 阅读 · 0 评论 -
tuozhan_all.py(8.14编辑)
Session和Cookie的区别前提关于会话追踪 HTTP协议是无状态的协议。一旦数据交换完毕,客户端与服务器端的连接就会关闭,再次交换数据需要建立新的连接。这就意味着服务器无法从连接上跟踪会话。 常用的会话跟踪技术是Cookie与Session。 Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。Session和Coo...原创 2018-08-13 20:00:21 · 176 阅读 · 0 评论 -
爬取数据存入mysql
import pymysql# mysql_coon 主要的功能就是, 将链接数据库的操作变成只连接一次# 需要先创建py1011数据库,并创建列表xueqiu_testclass mysql_conn(object): # 魔术方法, 初始化, 构造函数 def __init__(self): self.db = pymysql.connect(host=...原创 2018-08-15 22:13:57 · 732 阅读 · 0 评论 -
西刺代理(用老师ip)爬取
import requests# urlurl = 'http://www.xicidaili.com'# 添加 proxyproxy = { 'http': 'http://root:Yao+ql2011@101.200.50.18:8118'}# 添加headersheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT...原创 2018-08-15 22:11:38 · 1068 阅读 · 0 评论 -
雪球网爬取
import jsonimport requestsimport pymysql# 因为不能访问, 所以我们加个头试试headers = { #'Accept': '*/*', #'Accept-Encoding': 'gzip, deflate, br', #'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', #'...原创 2018-08-15 22:10:00 · 1234 阅读 · 0 评论 -
有道翻译
import timeimport randomimport jsonfrom Day1.tuozhan_all import postdef md5_my(need_str): import hashlib # 创建md5对象 md5_o = hashlib.md5() # 需要有bytes, 作为参数 # 由str, 转换成 bytes en...原创 2018-08-14 21:25:27 · 197 阅读 · 0 评论 -
豆瓣登陆(带验证码)
from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...原创 2018-08-21 19:37:29 · 847 阅读 · 0 评论