自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 合并数据

1、concat合并数据import numpy as npimport pandas as pddf1 = pd.DataFrame(np.ones((3,4))*1, columns=['A','B','C','D'])df2 = pd.DataFrame(np.ones((3,4))*2, columns=['A','B','C','D'])df3 = pd.Da

2018-01-16 23:44:03 307

原创 python设置值及NaN值处理

python 设置值import pandas as pdimport numpy as npdates = pd.date_range('20180101',periods=6)df = pd.DataFrame(np.arange(24).reshape(6,4),index=dates,columns=['A','B','C','D'])print(df)

2018-01-14 23:54:13 22277

原创 Pandas创建及基本操作

Pandas创建及基本操作一、Series类型由一组数据及与之相关的数据索引组成。创建的几种方式:import pandas as pdimport numpy as npa = pd.Series([1,3,4,np.nan,45]) #1、列表生成print(a) 0 1.0 1 3.0 2 4.0 3 N

2018-01-12 00:23:53 1465

原创 pandas数据选择(索引)

import pandas as pdimport numpy as npdates = pd.date_range('20180101',periods=6)df = pd.DataFrame(np.arange(24).reshape(6,4),index=dates,columns=['A','B','C','D'])print(df) #基本数据

2018-01-11 23:38:10 3125 1

原创 pandas

一、Series类型 Series类型由一组数据及与之相关的数据索引组成。创建:1、列表 a = pd.Series([5,4,3],index=['a','b','c'])2、字典 b = pd.Series({'a':5,'b':4,'c':3}, index=['c','a','b','d']) #按index顺序输出,d的值为NaN3、从ndarray类型创建

2017-11-29 16:59:09 212

原创 爬取当当网图书信息

大体思路: 列表页数据条数完整,但单条数据信息不完整,所以先爬取列表页单条数据的url; 再从这个url中提取每条数据的详细信息。import requestsimport refrom bs4 import BeautifulSoupimport pandas as pdn=0name_list=[]price_list=[]r = requests.get("http://sea

2017-11-23 19:23:25 2822

原创 数学题

寻找质数:for num in range(10,500): for i in range(2,num): if num%i == 0: j = num/i print ('%d = %d x %d' % (num,i,j))#格式可借鉴,用%连接。 break #跳出本循环 else:

2017-11-14 19:52:20 291

原创 matplotlib函数

matplotlib函数import matplotlib.pyplot as pltplt.plot(x, y, fortmat_string, **kwargs)参数说明:·x,y是数值列表·fortmat_string:颜色字符、风格字符、标记字符(可选)·kwargs:(统一修改)linestyle='dashed'--线型;color='green'--颜色;marker='o

2017-10-31 19:54:52 322

原创 Numpy数组

1、列表和数组:列表数据类型可以不同;数组的数据类型相同 2、N维数组对象:ndarray Python已有列表类型,为什么需要一个数组对象(类型)? • 数组对象可以去掉元素间运算所需的循环,使一维向量更像单个数据 • 设置专门的数组对象,经过优化,可以提升这类应用的运算速度 • 数组对象采用相同的数据类型,有助于节省运算和存储空间3、N维数组对象:ndarray ndarray是一

2017-10-29 23:47:36 362

原创 CD数据分析

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineplt.style.use('ggplot')columns = ['UID','order_dt','product','amount']df = pd.read_csv(r'C:\Users\shanminghuo\D

2017-10-27 15:45:06 978

原创 爬取当当网图书图片

import requestsfrom bs4 import BeautifulSoupimport redef getHTMLText(url): try: r = requests.get(url) r.encoding = r.apparent_encoding r.raise_for_status() return

2017-10-26 00:05:35 2367

原创 merge, datime64

merge函数使用: http://pandas.pydata.org/pandas-docs/stable/merging.htmltimestamp解释:瘳雪峰Datetimes and Timedeltas: https://docs.scipy.org/doc/numpy/reference/arrays.datetime.html timedelta64帮助完善Datetimes功能

2017-10-20 18:57:25 290

原创 数据分析

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineplt.style.use('ggplot')columns = ['UID','order_dt','product','amount']df = pd.read_csv(r'C:\Users\think\Desktop

2017-10-16 16:34:03 500

原创 datetime

一、pandas库中的to_datetime函数:pandas.to_datetime: pandas.to_datetime(arg, errors=’raise’, dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=Fals

2017-10-15 12:33:22 344

原创 爬取天气数据+热力图

第一次用旧知识爬取天气网站数据。import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encodin

2017-10-11 18:49:53 6048

原创 正则表达式

常用操作符: 正则表达式表达类型:原生字符串类型(不包含转义符的字符串,即\;可在字符串前加r,如:r’text’re 库函数: re库的另一种用法:编译后多次操作 pattern = re.compile(r’[1-9]\d{5}’) rst = pattern.search(‘BIT 100081’)match对象: 最小匹配: re库默认贪婪匹配,即输出匹配最长的子

2017-10-07 21:42:24 242

原创 大学排名信息爬取

import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding return

2017-09-30 16:28:54 424

原创 format函数

format 函数可以接受不限个参数,位置可以不按顺序>>>"{} {}".format("hello", "world") # 不设置指定位置,按默认顺序'hello world'>>> "{0} {1}".format("hello", "world") # 设置指定位置'hello world'>>> "{1} {0} {1}".format("hello", "world")

2017-09-30 16:27:35 6956 1

原创 BeautifulSoup0929

补充: 创建Beautiful Soup对象: soup = BeautifulSoup(html, ‘html.parser’)一、Beautiful Soup类基本元素(5):例、<p class="title">...</p><p>...</p>:标签Tag'p':标签名字nameclass="title":属性Attri...

2017-09-29 10:40:19 264

原创 Requests20170928

HTTP协议: URL格式:http://host:port[path] host:合法的Internet主机域名或IP地址 path:请求资源的路径URL是通过HTTP协议存取资源的Internet路径。requests库的主要方法: 1、r = requests.request():构造一个请求,支撑以下各方法的基础方法 2、r = requests.get():获取HTML网页的主要

2017-09-28 22:54:41 198

转载 pandas数据分析0723

import pandas as pdimport numpy as npdf = pd.read_csv(r"C:\Users\Administrator\Desktop\python 0712\DataAnalyst.csv",encoding = 'gb2312')df.head()len(df.positionId.unique())df_duplicates = df.dro

2017-09-28 14:44:24 308

原创 淘宝商品数据爬取

import requestsimport redef getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text exc

2017-09-28 14:40:51 1946

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除