自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

转载 糗事百科

# -*- coding: utf-8 -*-import scrapyfrom lxml import etreefrom urllib import requestfrom hw_project.items import QsItemimport jsonclass QiushibaikeSpider(scrapy.Spider): name = 'qiushibaike'...

2018-08-26 15:59:19 195

转载 练习 淘宝信息

# -*- coding: utf-8 -*-import scrapyimport refrom hw_project.items import TaobaoItemclass TaobaoSpider(scrapy.Spider): name = 'taobao' allowed_domains = ['taobao.com'] start_urls = ['...

2018-08-26 15:43:14 232

原创 练习 58信息

# -*- coding: utf-8 -*-import scrapyfrom lxml import etreefrom hw_project.items import Bj58Itemclass Bj58Spider(scrapy.Spider): name = 'bj58' allowed_domains = ['bj.58.com'] start_urls...

2018-08-26 15:27:14 178

原创 练习 网易新闻排行榜

# -*- coding: utf-8 -*-import scrapyfrom lxml import etreefrom hw_project.items import NewsItemclass WangyiSpider(scrapy.Spider): name = 'wangyi' allowed_domains = ['news.163.com'] st...

2018-08-26 14:35:22 209

转载 进程与线程

进程是一个处于运行状态的程序,例如:test.py是一个程序,当操作系统执行这个程序,就在操作系统中创建了一个属于该程序的进程;线程是进程的子单位,进程可以看作线程的一个集合,这个集合可以包含一个或多个线程;当进程中只有一个线程时,线程等同于进程; 同一进程中的线程共享该进程的资源,线程之间可以相互影响,包括创建和撤消操作,不同的线程可以同时执行,充分利用计算机资源,节约时间;线程的三种基...

2018-08-20 20:43:08 125

转载 利用队列及多进程下载音频文件

import requestsimport osdef geturllist(queue): url = 'https://www.ximalaya.com/revision/play/album?albumId=3423007&pageNum=1&sort=-1&pageSize=30' headers = { 'User-Agent...

2018-08-20 20:21:07 228

转载 腾讯招聘数据爬取、保存

# 在程序中打印无法显示内容,使用第一段程序保存至本地后再用第二段程序处理from urllib import requestfrom lxml import etreebase_url = 'https://hr.tencent.com/position.php?lid=&tid=&keywords=%E8%AF%B7%E8%BE%93%E5%85%A5%E5%85%B3%...

2018-08-19 16:03:09 553

转载 电影天堂数据爬取、保存

import requests,refrom pymysql_conn import Mysql_connecturl = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html's = requests.session()s.keep_alive = Falsemysql_object = Mysql_connect()sql =...

2018-08-19 16:00:12 895

转载 知乎数据爬取及存储

import requestsfrom pymysql_conn import Mysql_connecturl = 'https://www.zhihu.com/api/v4/members/leedaye/answers?include=data%5B*%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2C...

2018-08-17 22:33:39 616

转载 5i5j网页数据获取及存储

from urllib import requestfrom lxml import etreefrom pymysql_conn import Mysql_connect# 比较得出url 地址规律base_url = 'https://bj.5i5j.com/zufang/huilongguan/n{}'# https://bj.5i5j.com/zufang/huilongg...

2018-08-17 22:25:01 1190

转载 Day3笔记

requests包的使用 import requests proxy = {'http':'http://(auth)ip:port'} url = 'target_webaddress' headers = { copy from target_web } response =...

2018-08-15 22:09:41 143

转载 雪球数据抓取和数据库存储

import requestsimport json,timeheaders = {'Accept':'*/*','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive','Cookie':'_ga=GA1.2.385314115.153087...

2018-08-15 21:33:23 1085

转载 Urlrequest添加session

from urllib import request,parsefrom urllib.error import HTTPError,URLErrorfrom http import cookiejarclass Session(object): def __init__(self): cookie_object = cookiejar.CookieJar() ...

2018-08-14 22:32:29 471

转载 程序连接有道翻译

import time,json,randomfrom url_request import postdef md5_py(str_org): # python 版md5 import hashlib md5_object = hashlib.md5() str_org_byte = str_org.encode('utf-8') md5_object...

2018-08-14 22:00:19 90

转载 人人网帐号登录

from urllib import request,parseimport jsonfrom http import cookiejar# 创建Cookie对象cookie_object = cookiejar.CookieJar()# 将Cookie对象添加至请求handler = request.HTTPCookieProcessor(cookie_object)opener...

2018-08-14 19:28:13 9159

转载 cookie and session

cookie cookie是服务器通过Http的响应头中的一部分代码指示浏览器生成的文件,该文件保存在浏览器的文件夹下,记录少量信息。所以简单来说cookie 就是一份记录,每次访问服务器时告知服务器本浏览器是否已经进行过访问,若进行过访问就将页面调整为上次访问时的状态。例如在网站登录一次帐号 就可以在该网站随意浏览而不用再次登录。 session ses...

2018-08-14 08:37:56 167

原创 urlrequest封装

from urllib import request,parsefrom urllib.error import HTTPError,URLErrordef Urlrequest(url,form=None,headers=None): # 设置请求头 User_Agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWe...

2018-08-13 21:07:39 180

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除