- 博客(15)
- 收藏
- 关注
原创 链家(beautifulsoup)
import requestsfrom bs4 import BeautifulSoupfor i in range(1,6): url = 'https://bj.lianjia.com/ditiezufang/rp%s/'%(i) response = requests.get(url) # with open('lianjia.html','wb') as ...
2018-08-23 21:04:14
357
原创 豆瓣登陆(带验证码)
from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...
2018-08-21 19:37:29
848
原创 多线程爬取西刺代理
import requestsfrom lxml import etreeimport timeimport multiprocessingdef get_all_proxy(queue): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Wind...
2018-08-21 19:33:29
326
原创 多进程爬取妹子图
import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): (img_url, referer) = img_url_referer_url print('Downloading ......' + img_url) headers = { ...
2018-08-20 22:05:38
344
原创 关于进程和线程的理解
定义:进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位. 线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.计算机中CPU负责计算,并且只负责计算,并不负责分配计算资源。计算资源是由操作系统分配的。 CPU在工作时每次只能运行一项任务,即只有CPU执行完一个任务之后才能进行下一项任务,因此...
2018-08-20 21:59:41
441
原创 爬虫:腾讯招聘
#mysqlhelper.pyimport pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py1011', cha...
2018-08-19 13:52:52
295
1
原创 爬虫:回龙观租房
#mysqlhelper.pyimport pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py1011', cha...
2018-08-19 13:51:30
214
原创 爬虫:阳光电影
#mysqlhelper.pyimport pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py1011', cha...
2018-08-19 13:50:18
967
原创 爬取数据存入mysql
import pymysql# mysql_coon 主要的功能就是, 将链接数据库的操作变成只连接一次# 需要先创建py1011数据库,并创建列表xueqiu_testclass mysql_conn(object): # 魔术方法, 初始化, 构造函数 def __init__(self): self.db = pymysql.connect(host=...
2018-08-15 22:13:57
732
原创 西刺代理(用老师ip)爬取
import requests# urlurl = 'http://www.xicidaili.com'# 添加 proxyproxy = { 'http': 'http://root:Yao+ql2011@101.200.50.18:8118'}# 添加headersheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT...
2018-08-15 22:11:38
1068
原创 雪球网爬取
import jsonimport requestsimport pymysql# 因为不能访问, 所以我们加个头试试headers = { #'Accept': '*/*', #'Accept-Encoding': 'gzip, deflate, br', #'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', #'...
2018-08-15 22:10:00
1234
原创 有道翻译
import timeimport randomimport jsonfrom Day1.tuozhan_all import postdef md5_my(need_str): import hashlib # 创建md5对象 md5_o = hashlib.md5() # 需要有bytes, 作为参数 # 由str, 转换成 bytes en...
2018-08-14 21:25:27
197
原创 人人网登陆
自己更改cookie的值from Day1.tuozhan_all import get# 0. url# 1. 构造headers# 2. 调用get函数# 3. 保存页面url = 'http://www.renren.com/966927992'headers = { #'Accept': 'text/html,application/xhtml+xml,a...
2018-08-14 20:34:44
3210
原创 Session与Cookie的区别
Session与Cookie的区别前提HTTP协议是无状态的协议。一旦数据交换完毕,客户端与服务器端的连接就会关闭,再次交换数据需要建立新的连接。这就意味着服务器无法从连接上跟踪会话。因此要跟踪用户的整个会话,常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。Session与Cooki...
2018-08-13 20:28:19
104
原创 tuozhan_all.py(8.14编辑)
Session和Cookie的区别前提关于会话追踪 HTTP协议是无状态的协议。一旦数据交换完毕,客户端与服务器端的连接就会关闭,再次交换数据需要建立新的连接。这就意味着服务器无法从连接上跟踪会话。 常用的会话跟踪技术是Cookie与Session。 Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。Session和Coo...
2018-08-13 20:00:21
176
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人