自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 用python实现1-100的和

def sumStartToEnd(start,end):      sum = 0      for n in range(start,end+1,1):          sum = sum + n      return sum        #if __name__ == '__main__' :  print(sumStartToEnd(1,10000))  [python] view ...

2018-03-22 12:36:45 5883

转载 从内存利用和CPU利用开始了解List和Tuple的优缺点

从内存利用和CPU利用开始了解List和Tuple的优缺点定义 List:动态数组,元素可变,可改变大小(append,resize)Tuple:静态数组,不可变,数据一旦创建后不可改变List的内存利用 当创建N个元素的List时,Python的动态内存分配长N+1个元素的内存,第一个元素存储列表长度,和列表的元信息。 当Append一个元素时,Python将创建一个足够大的列表,来容纳N个元素...

2018-03-22 11:43:52 893

原创 百度翻译

# coding=utf-8import requestsimport jsonimport sysclass BaiduFanyi:    def __init__(self,query_string):  # 1.post url,data        self.query_string= query_string        self.post_url = "http://fanyi.b...

2018-03-07 22:19:51 922

原创 登录人人网

import requestsimport  resession = requests.session()url = "http://www.renren.com/PLogin.do"post_data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}headers = {    "User-Agent": &quot

2018-03-07 22:19:41 1905

原创 登录人人网 cookie

import requestsimport  reurl = "http://www.renren.com/PLogin.do"post_data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}headers = {    "User-Agent": "Mozilla/5.0 (Macintosh; Int

2018-03-07 22:19:16 880

原创 登录人人网 cookie2

import requestsimport  reurl = "http://www.renren.com/PLogin.do"post_data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}headers = {    "User-Agent": "Mozilla/5.0 (Macintosh; Int

2018-03-07 22:19:06 533

原创 12306网站 ~免证书

import requestsurl = "https://www.12306.cn/mormhweb/"proxies = {"https":"https://177.8.169.255:3128"}r = requests.get(url,timeout=3,proxies=proxies,verify=False)assert r.status_code == 200print(r.cont...

2018-03-07 22:18:36 291

原创 GET和POST方法

HTTP请求主要分为Get和Post两种方法GET是从服务器上获取数据,POST是向服务器传送数据GET请求参数显示,都显示在浏览器网址上,HTTP服务器根据该请求所包含URL中的参数来产生响应内容,即“Get”请求的参数是URL的一部分。 例如: http://www.baidu.com/s?wd=ChinesePOST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向H...

2018-03-07 22:18:23 228

原创 json

# coding=utf-8import requestsimport jsonfrom pprint import pprinturl = "https://m.douban.com/rexxar/api/v2/subject_collection/movie_showing/items?start=0&count=18"r = requests.get(url)json_respons...

2018-03-07 22:18:01 164

原创 json_load_jump

# coding=utf-8import json#json.loadwith open("douban.json","r",encoding="utf-8") as f: #f就是一个类文件对象    t = json.load(f)print(type(t))#json.dumpwith open("douban1.json","w",encoding="utf-8") as f:

2018-03-07 22:17:19 370

原创 使用scrapy爬取京东商城中的书籍信息

爬取京东商城中所有的Python书籍的名字和价格信息JDBookSpider代码如下:# -*- coding: utf-8 -*-import scrapyfrom scrapy import Requestfrom scrapy_splash import SplashRequestlua_script = '''function main(splash)    splash:go(splas...

2018-03-07 22:16:38 942

原创 Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)

Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)。语法 strip()方法语法:str.strip([chars]);1参数 chars – 移除字符串头尾指定的字符。 返回值 返回移除字符串头尾指定的字符生成的新字符串。只移除字符串头尾指定的字符,中间部分不会移除。实例str = "0000000this is string example....wow!!!0000...

2018-03-07 22:07:19 7577

原创 爬取贴吧多页数据

# coding=utf-8import requestsclass TiebaSpider:    def __init__(self,tieba_name):        self.tieba_name = tieba_name        self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&

2017-10-30 16:44:01 579

原创 代替浏览器行为爬取数据

# coding=utf-8import requestsheaders = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"}# url = "http

2017-10-30 16:41:16 295

原创 爬取 百度logo(图片)

# coding=utf-8import requestsr = requests.get("https://www.baidu.com/img/bd_logo1.png")with open("baidu.png","wb") as f:    f.write(r.content)

2017-10-30 16:39:34 5124 1

原创 代理神器Fiddler

抓包工具Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP,HTTPS请求

2017-10-30 16:35:44 250

原创 发送POST请求 使用代理 处理cookies session

哪些地方我们会用到POST请求:登录注册( POST 比 GET 更安全)需要传输大文本内容的时候( POST 请求对数据长度没有要求)所以同样的,我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求用法:response = requests.post("http://www.baidu.com/", data = data,head

2017-10-30 16:25:19 2629

原创 发送带header的请求 发送带参数的请求

为什么请求需要带上header?模拟浏览器,欺骗服务器,获取和浏览器一致的内容header的形式:字典headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99

2017-10-30 16:22:02 8572

原创 requests入门 response的常用方法 response.text 和response.content的区别

为什么要学习requests,而不是urllib?1. requests的底层实现就是urllib2. requests在python2 和 python3中通用,方法完全一样3. request简单易用4. Requests能够自动帮助我们解压(gzip压缩的等)网页内容requests的作用作用:发送网络请求,返回响应数据response = req

2017-10-30 16:03:11 16538

原创 爬虫学习01 str类型和bytes类型 Unicode UTF8 ASCII 的补充 str bytes如何转化

bytes:二进制互联网上的数据都是以二进制方式传输的str: unicode的呈现形式字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字符号等字符集(Character)是多个字符的集合字符集包括:ASCII字符集、GB2312字符集、GB18030字符集、Unicode字符集等ASCII编码是1个字节,而Unico

2017-10-30 15:47:50 519

原创 响应状态码 status code

202: 成功302: 临时转移至新的url307: 临时转移至新的url404: not found500: 服务器内部错误

2017-10-30 15:44:29 780

原创 url的形式

形式 scheme://host[:port#]/path/.../[?query-string][#anchor]scheme:协议(例如:http,https,ftp)host:服务器的IP地址或者域名port:服务器的端口(如果是走协议默认端口,80 or 443)path:访问资源的路径query-string:参数,发送给http服务器的数据anchor:

2017-10-29 17:28:31 1041

原创 HTTP和HTTPS

HTTP超文本传输协议默认端口号:80HTTPSHTTP+SSL(安全套接字层)默认端口号:443HTTPS比HTTP更安全,但是性能更低

2017-10-29 17:05:44 475

原创 爬虫学习01 什么是爬虫 爬虫的分类

网络爬虫(又被称为网页蜘蛛,网页机器人),模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序        浏览器能做的事情,原则上爬虫都能够做

2017-10-29 16:05:21 3707 1

转载 爬虫学习01 API

API 美 [epi'aɪ] n.应用编程接口网络应用程序编程接口(Application Programming Interface);转载的://ww.zhihu.com/question/22113447/answer/88080877用A公司和B公司举例A有数

2017-10-29 15:38:00 375

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除