shirley05lhz-CSDN博客

原创用python实现1-100的和

def sumStartToEnd(start,end): sum = 0 for n in range(start,end+1,1): sum = sum + n return sum #if __name__ == '__main__' : print(sumStartToEnd(1,10000)) [python] view ...

2018-03-22 12:36:45 5883

转载从内存利用和CPU利用开始了解List和Tuple的优缺点

从内存利用和CPU利用开始了解List和Tuple的优缺点定义 List:动态数组,元素可变,可改变大小(append,resize)Tuple:静态数组,不可变,数据一旦创建后不可改变List的内存利用当创建N个元素的List时,Python的动态内存分配长N+1个元素的内存,第一个元素存储列表长度,和列表的元信息。当Append一个元素时,Python将创建一个足够大的列表,来容纳N个元素...

2018-03-22 11:43:52 893

原创百度翻译

# coding=utf-8import requestsimport jsonimport sysclass BaiduFanyi: def __init__(self,query_string): # 1.post url，data self.query_string= query_string self.post_url = "http://fanyi.b...

2018-03-07 22:19:51 922

原创登录人人网

import requestsimport resession = requests.session()url = "http://www.renren.com/PLogin.do"post_data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}headers = { "User-Agent": &quot

2018-03-07 22:19:41 1905

原创登录人人网 cookie

import requestsimport reurl = "http://www.renren.com/PLogin.do"post_data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Int

2018-03-07 22:19:16 880

原创登录人人网 cookie2

import requestsimport reurl = "http://www.renren.com/PLogin.do"post_data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Int

2018-03-07 22:19:06 533

原创 12306网站 ~免证书

import requestsurl = "https://www.12306.cn/mormhweb/"proxies = {"https":"https://177.8.169.255:3128"}r = requests.get(url,timeout=3,proxies=proxies,verify=False)assert r.status_code == 200print(r.cont...

2018-03-07 22:18:36 291

原创 GET和POST方法

HTTP请求主要分为Get和Post两种方法GET是从服务器上获取数据，POST是向服务器传送数据GET请求参数显示，都显示在浏览器网址上，HTTP服务器根据该请求所包含URL中的参数来产生响应内容，即“Get”请求的参数是URL的一部分。例如： http://www.baidu.com/s?wd=ChinesePOST请求参数在请求体当中，消息长度没有限制而且以隐式的方式进行发送，通常用来向H...

2018-03-07 22:18:23 228

原创 json

# coding=utf-8import requestsimport jsonfrom pprint import pprinturl = "https://m.douban.com/rexxar/api/v2/subject_collection/movie_showing/items?start=0&count=18"r = requests.get(url)json_respons...

2018-03-07 22:18:01 164

原创 json_load_jump

# coding=utf-8import json#json.loadwith open("douban.json","r",encoding="utf-8") as f: #f就是一个类文件对象 t = json.load(f)print(type(t))#json.dumpwith open("douban1.json","w",encoding="utf-8") as f:

2018-03-07 22:17:19 370

原创使用scrapy爬取京东商城中的书籍信息

爬取京东商城中所有的Python书籍的名字和价格信息JDBookSpider代码如下：# -*- coding: utf-8 -*-import scrapyfrom scrapy import Requestfrom scrapy_splash import SplashRequestlua_script = '''function main(splash) splash:go(splas...

2018-03-07 22:16:38 942

原创 Python strip() 方法用于移除字符串头尾指定的字符（默认为空格）

Python strip() 方法用于移除字符串头尾指定的字符（默认为空格）。语法 strip()方法语法：str.strip([chars]);1参数 chars – 移除字符串头尾指定的字符。返回值返回移除字符串头尾指定的字符生成的新字符串。只移除字符串头尾指定的字符，中间部分不会移除。实例str = "0000000this is string example....wow!!!0000...

2018-03-07 22:07:19 7577

原创爬取贴吧多页数据

# coding=utf-8import requestsclass TiebaSpider: def __init__(self,tieba_name): self.tieba_name = tieba_name self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&

2017-10-30 16:44:01 579

原创代替浏览器行为爬取数据

# coding=utf-8import requestsheaders = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"}# url = "http

2017-10-30 16:41:16 295

原创爬取百度logo（图片）

# coding=utf-8import requestsr = requests.get("https://www.baidu.com/img/bd_logo1.png")with open("baidu.png","wb") as f: f.write(r.content)

2017-10-30 16:39:34 5124 1

原创代理神器Fiddler

抓包工具Fiddler是一款强大Web调试工具，它能记录所有客户端和服务器的HTTP,HTTPS请求

2017-10-30 16:35:44 250

原创发送POST请求使用代理处理cookies session

哪些地方我们会用到POST请求：登录注册（ POST 比 GET 更安全）需要传输大文本内容的时候（ POST 请求对数据长度没有要求）所以同样的，我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求用法：response = requests.post("http://www.baidu.com/", data = data,head

2017-10-30 16:25:19 2629

原创发送带header的请求发送带参数的请求

为什么请求需要带上header？模拟浏览器，欺骗服务器，获取和浏览器一致的内容header的形式：字典headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99

2017-10-30 16:22:02 8572

原创 requests入门 response的常用方法 response.text 和response.content的区别

为什么要学习requests,而不是urllib?1. requests的底层实现就是urllib2. requests在python2 和 python3中通用，方法完全一样3. request简单易用4. Requests能够自动帮助我们解压（gzip压缩的等）网页内容requests的作用作用：发送网络请求，返回响应数据response = req

2017-10-30 16:03:11 16538

原创爬虫学习01 str类型和bytes类型 Unicode UTF8 ASCII 的补充 str bytes如何转化

bytes:二进制互联网上的数据都是以二进制方式传输的str: unicode的呈现形式字符（Character）是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字符号等字符集（Character）是多个字符的集合字符集包括：ASCII字符集、GB2312字符集、GB18030字符集、Unicode字符集等ASCII编码是1个字节，而Unico

2017-10-30 15:47:50 519

原创响应状态码 status code

202: 成功302: 临时转移至新的url307: 临时转移至新的url404: not found500: 服务器内部错误

2017-10-30 15:44:29 780

原创 url的形式

形式 scheme://host[:port#]/path/.../[?query-string][#anchor]scheme:协议（例如：http,https,ftp）host:服务器的IP地址或者域名port:服务器的端口（如果是走协议默认端口，80 or 443）path:访问资源的路径query-string:参数，发送给http服务器的数据anchor:

2017-10-29 17:28:31 1041

原创 HTTP和HTTPS

HTTP超文本传输协议默认端口号：80HTTPSHTTP+SSL(安全套接字层)默认端口号：443HTTPS比HTTP更安全，但是性能更低

2017-10-29 17:05:44 475

原创爬虫学习01 什么是爬虫爬虫的分类

网络爬虫（又被称为网页蜘蛛，网页机器人），模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序浏览器能做的事情，原则上爬虫都能够做

2017-10-29 16:05:21 3707 1

转载爬虫学习01 API

API 美 [epi'aɪ] n.应用编程接口网络应用程序编程接口(Application Programming Interface)；转载的：//ww.zhihu.com/question/22113447/answer/88080877用A公司和B公司举例A有数

2017-10-29 15:38:00 375

shirley05lhz的博客