- 博客(7)
- 收藏
- 关注
原创 爬虫day5 易中天品三国音频爬取
# 易中天品三国音频爬取import requestsfrom lxml import etreefrom urllib import parse,requestbase_url = 'https://www.ximalaya.com/lishi/13396678/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6....
2018-08-21 23:52:14 728
原创 爬虫day7 获取西刺代理所有proxy,并判断是否有效可用
# 获取西刺代理所有proxy,并判断是否有效可用# 创建消息队列q# 创建进程t --将q作为参数传入get_all_proxy函数,获取所有proxy,并放入队列q# 创建进程池p --将进程池p与检测函数(check_one_proxy)相关,# 从队列中取出proxy作为参数传入检测函数,并通过return值判断是否可用import ...
2018-08-21 23:47:58 605 1
原创 爬虫day7 头条街拍下载,简单规律,涉及正则,图片写入
import requestsimport reimport jsonfrom urllib import requestimport osdef download(n): # 控制变量 控制页数 url = 'https://www.toutiao.com/search_content/?offset='+str(20*(n-1))+'&format=json...
2018-08-21 23:34:52 185
原创 爬虫day7 豆瓣网图形验证登录,涉及selenium
from selenium import webdriverimport timefrom lxml import etreeimport requestsimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A...
2018-08-21 23:30:23 259
原创 爬虫day3 (爬取雪球网n页数据)
爬取雪球网n页数据用到 与mysql数据库的交互 # 爬取雪球网n页数据# 用到 与mysql数据库的交互import requestsimport jsonimport pymysqlclass mysql_conn(object): # 魔术方法, 初始化, 构造函数 def __init__(self): self.db = pymy...
2018-08-15 23:16:36 532
原创 爬虫day2 (代理ip访问----人人网登录 //手动添加cookie/、实时存储cookie//封装类-----有道翻译 加盐破解)
通过代理ip访问#通过代理ip访问from urllib import requestproxy = { 'http':'http://219.141.153.41:80'}# 实例 一个操作(储存代理ip)handler = request.ProxyHandler(proxy)# 实例 request对象 opener(绑定以上操作)opener = reque...
2018-08-14 22:31:41 583
原创 day1
session与cookie区别: 1 session保存在服务器,客户端不知道其中的信息;cookie保存在客户端,服务端可以知道其中的信息2 session中保存的是对象,cookie中保存的是字符串3 session不能区分路径,同一个用户在访问一个网站期间,所有的session在任何一个地方都可以访问到;而cookie中如果设置了路径参数,那么同一个网站中不同路径下的cook...
2018-08-13 23:03:24 154
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人