python
名字好难起2222
这个作者很懒,什么都没留下…
展开
-
看晋江总分榜积分与字数的关系
#!/usr/bin/python# -*- coding: UTF-8 -*- import urllib.requestimport urllib.errorimport reimport threadingfrom lxml import etreeimport timeimport pandas as pdimport sysimport numpy as np ...原创 2018-07-25 00:45:50 · 1867 阅读 · 0 评论 -
某航空积分商城爬虫
import urllib.requestimport urllib.parseimport urllib.errorimport jsonimport jsonpathimport pandas as pdimport timeurl="***"#可从Fiddler中查看headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0;...原创 2018-10-26 23:15:47 · 221 阅读 · 0 评论 -
python函数
1、python函数 #lambda函数,打印test2_fun0: 1001fun0=lambda a:a+1print('test2_fun0:',fun0(1000))#map函数,打印111,122,133li=[11,22,33]new_list=map(lambda a:a+100,li)#函数,列表,遍历列表中的每一个元素,执行传递过来的函数参数for i in ...转载 2018-08-13 00:31:34 · 264 阅读 · 0 评论 -
python基础点
1 python始终记录变量最新值。2 变量应简短且具有描述性,如student_name等。3 变量名推荐小写。4 单双引号括起来的,字符串可以包含引号和撇号。用法:"this's a cup"5 title()将每个单词的首字母都改为大写。用法:str.title()6 upper()将字符串转化为大写。用法:str.upper()7 lower()将字符串转化为小写。用法:str...转载 2018-08-05 20:46:39 · 227 阅读 · 0 评论 -
matplotlib 打卡1
1、直方图(连续型,例身高图)mu=100#mean of distribution,平均数sigma=20#standard deviation of distribution,平均差x=mu+sigma*np.random.randn(2000)plt.hist(x,bins=10,color='r',normed=True)#bins表示有几个直方图,normed表示是否标准化,...原创 2018-08-01 00:27:17 · 259 阅读 · 0 评论 -
镇魂优酷视频短评爬虫
#!/usr/bin/python# -*- coding: UTF-8 -*- import urllib.requestimport urllib.errorimport refrom lxml import etreeimport timeimport pandas as pdimport sysimport jiebaimport numpy #numpy计...原创 2018-07-21 23:56:05 · 593 阅读 · 0 评论 -
战狼2豆瓣词云
#!/usr/bin/python# -*- coding: UTF-8 -*- import urllib.requestimport urllib.errorimport reimport threadingfrom lxml import etreeimport timeimport pandas as pdfrom html.parser import HTMLPa...原创 2018-07-21 17:03:40 · 620 阅读 · 1 评论 -
pandas
1、pandas选择数据 import pandas as pdimport numpy as np s=pd.Series([1,3,6,np.nan,44,1])print(s)0 1.01 3.02 6.03 NaN4 44.05 1.0dtype: float64dates=pd.date_range('20...原创 2018-07-29 14:41:48 · 307 阅读 · 0 评论 -
numpy
1、array=np.array([[1,2,3],[4,5,6]])print(array)print('number of dim:',array.ndim)print('shape:',array.shape)print('size:',array.size)[[1 2 3] [4 5 6]]number of dim: 2shape:(2, 3)size: 6...原创 2018-07-28 18:34:44 · 233 阅读 · 0 评论 -
python 爬取百度贴吧美图和文字
import urllib.requestfrom lxml import etree headers = ('Referer','https://tieba.baidu.com/p/4640092720?pn=1')#防盗链,修改访问来源opener = urllib.request.build_opener()opener.addheaders = [headers]urllib...原创 2018-07-19 22:06:09 · 229 阅读 · 0 评论 -
Python爬虫天涯论坛美图
import urllib.requestfrom lxml import etreeheaders = ('Referer','http://bbs.tianya.cn/post-funinfo-2325132-1.shtml')#防盗链,修改访问来源opener = urllib.request.build_opener()opener.addheaders = [headers]...原创 2018-07-19 20:45:46 · 966 阅读 · 0 评论 -
我在故宫修文物大电影B站爬虫
1、b站网址:https://www.bilibili.com/bangumi/play/ss11936/2、弹幕网址:http://comment.bilibili.com/13306224.xml,13306224为cid3、用python 编写爬虫,并进行文本分析,生成词云。import urllib.requestimport urllib.errorimport p...原创 2018-10-26 23:45:03 · 676 阅读 · 0 评论