单明火-CSDN博客

原创合并数据

1、concat合并数据import numpy as npimport pandas as pddf1 = pd.DataFrame(np.ones((3,4))*1, columns=['A','B','C','D'])df2 = pd.DataFrame(np.ones((3,4))*2, columns=['A','B','C','D'])df3 = pd.Da

2018-01-16 23:44:03 385

原创 python设置值及NaN值处理

python 设置值import pandas as pdimport numpy as npdates = pd.date_range('20180101',periods=6)df = pd.DataFrame(np.arange(24).reshape(6,4),index=dates,columns=['A','B','C','D'])print(df)

2018-01-14 23:54:13 22402

原创 Pandas创建及基本操作

Pandas创建及基本操作一、Series类型由一组数据及与之相关的数据索引组成。创建的几种方式：import pandas as pdimport numpy as npa = pd.Series([1,3,4,np.nan,45]) #1、列表生成print(a) 0 1.0 1 3.0 2 4.0 3 N

2018-01-12 00:23:53 1542

原创 pandas数据选择（索引）

import pandas as pdimport numpy as npdates = pd.date_range('20180101',periods=6)df = pd.DataFrame(np.arange(24).reshape(6,4),index=dates,columns=['A','B','C','D'])print(df) #基本数据

2018-01-11 23:38:10 3238 1

原创 pandas

一、Series类型 Series类型由一组数据及与之相关的数据索引组成。创建：1、列表 a = pd.Series([5,4,3],index=['a','b','c'])2、字典 b = pd.Series({'a':5,'b':4,'c':3}, index=['c','a','b','d']) #按index顺序输出，d的值为NaN3、从ndarray类型创建

2017-11-29 16:59:09 258

原创爬取当当网图书信息

大体思路：列表页数据条数完整，但单条数据信息不完整，所以先爬取列表页单条数据的url；再从这个url中提取每条数据的详细信息。import requestsimport refrom bs4 import BeautifulSoupimport pandas as pdn=0name_list=[]price_list=[]r = requests.get("http://sea

2017-11-23 19:23:25 2967

原创数学题

寻找质数：for num in range(10,500): for i in range(2,num): if num%i == 0: j = num/i print ('%d = %d x %d' % (num,i,j))#格式可借鉴，用%连接。 break #跳出本循环 else:

2017-11-14 19:52:20 344

原创 matplotlib函数

matplotlib函数import matplotlib.pyplot as pltplt.plot(x, y, fortmat_string, **kwargs)参数说明：·x,y是数值列表·fortmat_string：颜色字符、风格字符、标记字符（可选）·kwargs：（统一修改）linestyle='dashed'--线型；color='green'--颜色；marker='o

2017-10-31 19:54:52 394

原创 Numpy数组

1、列表和数组：列表数据类型可以不同；数组的数据类型相同 2、N维数组对象：ndarray Python已有列表类型，为什么需要一个数组对象(类型)？ • 数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数据 • 设置专门的数组对象，经过优化，可以提升这类应用的运算速度 • 数组对象采用相同的数据类型，有助于节省运算和存储空间3、N维数组对象：ndarray ndarray是一

2017-10-29 23:47:36 460

原创 CD数据分析

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineplt.style.use('ggplot')columns = ['UID','order_dt','product','amount']df = pd.read_csv(r'C:\Users\shanminghuo\D

2017-10-27 15:45:06 1078

原创爬取当当网图书图片

import requestsfrom bs4 import BeautifulSoupimport redef getHTMLText(url): try: r = requests.get(url) r.encoding = r.apparent_encoding r.raise_for_status() return

2017-10-26 00:05:35 2510

原创 merge, datime64

merge函数使用： http://pandas.pydata.org/pandas-docs/stable/merging.htmltimestamp解释：瘳雪峰Datetimes and Timedeltas： https://docs.scipy.org/doc/numpy/reference/arrays.datetime.html timedelta64帮助完善Datetimes功能

2017-10-20 18:57:25 352

原创数据分析

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineplt.style.use('ggplot')columns = ['UID','order_dt','product','amount']df = pd.read_csv(r'C:\Users\think\Desktop

2017-10-16 16:34:03 576

一、pandas库中的to_datetime函数：pandas.to_datetime: pandas.to_datetime(arg, errors=’raise’, dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=Fals

2017-10-15 12:33:22 407

原创爬取天气数据+热力图

第一次用旧知识爬取天气网站数据。import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encodin

2017-10-11 18:49:53 6224

原创正则表达式

常用操作符：正则表达式表达类型：原生字符串类型（不包含转义符的字符串，即\；可在字符串前加r，如：r’text’re 库函数： re库的另一种用法：编译后多次操作 pattern = re.compile(r’[1-9]\d{5}’) rst = pattern.search(‘BIT 100081’)match对象：最小匹配： re库默认贪婪匹配，即输出匹配最长的子

2017-10-07 21:42:24 296

原创大学排名信息爬取

import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding return

2017-09-30 16:28:54 481

原创 format函数

format 函数可以接受不限个参数，位置可以不按顺序>>>"{} {}".format("hello", "world") # 不设置指定位置，按默认顺序'hello world'>>> "{0} {1}".format("hello", "world") # 设置指定位置'hello world'>>> "{1} {0} {1}".format("hello", "world")

2017-09-30 16:27:35 7081 1

原创 BeautifulSoup0929

补充：创建Beautiful Soup对象： soup = BeautifulSoup(html, ‘html.parser’)一、Beautiful Soup类基本元素（5）：例、<p class="title">...</p><p>...</p>：标签Tag'p'：标签名字nameclass="title"：属性Attri...

2017-09-29 10:40:19 309

原创 Requests20170928

HTTP协议： URL格式：http://host:port[path] host:合法的Internet主机域名或IP地址 path:请求资源的路径URL是通过HTTP协议存取资源的Internet路径。requests库的主要方法： 1、r = requests.request():构造一个请求，支撑以下各方法的基础方法 2、r = requests.get()：获取HTML网页的主要

2017-09-28 22:54:41 243

转载 pandas数据分析0723

import pandas as pdimport numpy as npdf = pd.read_csv(r"C:\Users\Administrator\Desktop\python 0712\DataAnalyst.csv",encoding = 'gb2312')df.head()len(df.positionId.unique())df_duplicates = df.dro

2017-09-28 14:44:24 370

原创淘宝商品数据爬取

import requestsimport redef getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text exc

2017-09-28 14:40:51 2062

knowmore0823的博客