自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 链家(beautifulsoup)

import requestsfrom bs4 import BeautifulSoupfor i in range(1,6): url = 'https://bj.lianjia.com/ditiezufang/rp%s/'%(i) response = requests.get(url) # with open('lianjia.html','wb') as ...

2018-08-23 21:04:14 357

原创 豆瓣登陆(带验证码)

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-21 19:37:29 848

原创 多线程爬取西刺代理

import requestsfrom lxml import etreeimport timeimport multiprocessingdef get_all_proxy(queue): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Wind...

2018-08-21 19:33:29 326

原创 多进程爬取妹子图

import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): (img_url, referer) = img_url_referer_url print('Downloading ......' + img_url) headers = { ...

2018-08-20 22:05:38 344

原创 关于进程和线程的理解

定义:进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位. 线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.计算机中CPU负责计算,并且只负责计算,并不负责分配计算资源。计算资源是由操作系统分配的。 CPU在工作时每次只能运行一项任务,即只有CPU执行完一个任务之后才能进行下一项任务,因此...

2018-08-20 21:59:41 441

原创 爬虫:腾讯招聘

#mysqlhelper.pyimport pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py1011', cha...

2018-08-19 13:52:52 295 1

原创 爬虫:回龙观租房

#mysqlhelper.pyimport pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py1011', cha...

2018-08-19 13:51:30 214

原创 爬虫:阳光电影

#mysqlhelper.pyimport pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py1011', cha...

2018-08-19 13:50:18 967

原创 爬取数据存入mysql

import pymysql# mysql_coon 主要的功能就是, 将链接数据库的操作变成只连接一次# 需要先创建py1011数据库,并创建列表xueqiu_testclass mysql_conn(object): # 魔术方法, 初始化, 构造函数 def __init__(self): self.db = pymysql.connect(host=...

2018-08-15 22:13:57 732

原创 西刺代理(用老师ip)爬取

import requests# urlurl = 'http://www.xicidaili.com'# 添加 proxyproxy = { 'http': 'http://root:Yao+ql2011@101.200.50.18:8118'}# 添加headersheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT...

2018-08-15 22:11:38 1068

原创 雪球网爬取

import jsonimport requestsimport pymysql# 因为不能访问, 所以我们加个头试试headers = { #'Accept': '*/*', #'Accept-Encoding': 'gzip, deflate, br', #'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', #'...

2018-08-15 22:10:00 1234

原创 有道翻译

import timeimport randomimport jsonfrom Day1.tuozhan_all import postdef md5_my(need_str): import hashlib # 创建md5对象 md5_o = hashlib.md5() # 需要有bytes, 作为参数 # 由str, 转换成 bytes en...

2018-08-14 21:25:27 197

原创 人人网登陆

自己更改cookie的值from Day1.tuozhan_all import get# 0. url# 1. 构造headers# 2. 调用get函数# 3. 保存页面url = 'http://www.renren.com/966927992'headers = { #'Accept': 'text/html,application/xhtml+xml,a...

2018-08-14 20:34:44 3210

原创 Session与Cookie的区别

Session与Cookie的区别前提HTTP协议是无状态的协议。一旦数据交换完毕,客户端与服务器端的连接就会关闭,再次交换数据需要建立新的连接。这就意味着服务器无法从连接上跟踪会话。因此要跟踪用户的整个会话,常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。Session与Cooki...

2018-08-13 20:28:19 104

原创 tuozhan_all.py(8.14编辑)

Session和Cookie的区别前提关于会话追踪 HTTP协议是无状态的协议。一旦数据交换完毕,客户端与服务器端的连接就会关闭,再次交换数据需要建立新的连接。这就意味着服务器无法从连接上跟踪会话。 常用的会话跟踪技术是Cookie与Session。 Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。Session和Coo...

2018-08-13 20:00:21 176

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除