python
python使用过程中的一些知识
弎见
这个作者很懒,什么都没留下…
展开
-
matplotlib中的pie图
饼图设置颜色设置字体颜色设置说明文字%matplotlib inlineimport matplotlib.pyplot as pltm = 51212f = 40742m_perc = m/(m+f)f_perc = f/(m+f)colors = ['navy','lightcoral']labels = ["Male","Female"]plt.figure...原创 2020-04-04 12:16:45 · 392 阅读 · 0 评论 -
协同过滤与隐语义模型推荐系统实例1: 数据处理
构建一个音乐推荐系统import pandas as pdimport numpy as npimport timeimport sqlite3data_home = 'F:/51学习/study/机器学习进阶/第14章Python从零开始构建音乐推荐系统/Python实现音乐推荐系统/'triplet_dataset = pd.read_csv(filepath_or_buffe...原创 2020-02-15 18:13:36 · 588 阅读 · 1 评论 -
python中符号" ~ "的意义和用法
~ 在python中为反转的意思, 目前我知道的有两种用法.一. 数值按位翻转~ x 就是 - ( x + 1)x = 2print(~x)-3二. 布尔值取反直接看案例import pandas as pddf = pd.DataFrame([[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10]], columns=['A','B','...原创 2020-02-05 12:08:53 · 16177 阅读 · 0 评论 -
时间处理date_range,truncate,Timestamp,Period,Timedelta,resample,rolling
文章目录1. date_range2. truncate 过滤3. Timestamp, Period, Timedelta3.1 Timestamp 时间戳3.2 Period 时间区间3.3 Timedelta 时间差3.4 时间转换4. period_range5. 时间索引6. 时间戳Timestamp 和时间周期period 转换7. 重采样 resample8. 插值方法 fill9....原创 2020-01-11 12:11:51 · 660 阅读 · 0 评论 -
sklearn降维2: 主成分分析PCA原理python过程
import numpy as npimport pandas as pddf = pd.read_csv('iris.data')df.columns = ['sepal_len','sepal_wid','petal_len','petal_wid','class']df.head()X = df.iloc[:,0:4].valuesy = df.iloc[:,4].value...原创 2019-11-21 00:20:25 · 437 阅读 · 0 评论 -
sklearn降维1: 线性判别分析LDA原理python过程
import pandas as pd#df = pd.read_csv('iris.data', header=None, sep=',')df = pd.io.parsers.read_csv(filepath_or_buffer='https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',head...原创 2019-11-21 00:01:44 · 1213 阅读 · 0 评论 -
numpy.linalg线性代数应用: inv, eig, det, solve, norm
numpy.linalg模块包含线性代数的函数。使用这个模块,可以计算逆矩阵、求特征值、解线性方程组以及求解行列式等。np.linalg.det() 计算输入矩阵的行列式np.linalg.solve() 给出矩阵形式的线性方程的解np.linalg.inv() 计算矩阵的乘法逆矩阵np.linalg.eig() 求矩阵的特征值和特征向量np.linalg.eigvals() 求矩阵的...原创 2019-11-20 23:37:29 · 1903 阅读 · 0 评论 -
sklearn数值特征之时间处理
import pandas as pdimport numpy as npimport datetimefrom dateutil.parser import parse # parse根据字符串解析成datetime,字符串可以很随意,可用时间日期的英文单词,可用横线,逗号,空格等做分隔符import pytz # 时区time_stamps = ['2015-03-08 10:3...原创 2019-11-11 21:36:13 · 1642 阅读 · 0 评论 -
sklearn数值特征连续值处理3: 对数变换COX-BOX
import pandas as pdimport numpy as npfcc_survey_df = pd.read_csv('fcc_2016_coder_survey_subset.csv',encoding='utf-8')fcc_survey_df['Income_log'] = np.log(1 + fcc_survey_df['Income']) # 对数变换fcc_s...原创 2019-11-11 18:27:49 · 1722 阅读 · 0 评论 -
sklearn数值特征连续值处理2: 分位数切分quantile
import pandas as pdfcc_survey_df = pd.read_csv('fcc_2016_coder_survey_subset.csv',encoding='utf-8')fcc_survey_df[['ID.x','Age','Income']].iloc[2:7]import matplotlib.pyplot as pltimport matplotl...原创 2019-11-11 18:22:02 · 1525 阅读 · 0 评论 -
sklearn数值特征连续值处理1: Binning based on rounding
import pandas as pdfcc_survey_df = pd.read_csv('fcc_2016_coder_survey_subset.csv',encoding='utf-8')fcc_survey_df[['ID.x','EmploymentField','Age','Income']].head()import matplotlib.pyplot as plt...原创 2019-11-11 18:07:12 · 613 阅读 · 0 评论 -
sklearn数值特征离散值处理4: get_dummies()
import pandas as pdpoke_df = pd.read_csv('Pokemon.csv', encoding='utf-8')poke_df[['Name','Generation']].iloc[4:10]gen_dummy_features = pd.get_dummies(poke_df['Generation'], drop_first=True) #去掉第...原创 2019-11-11 00:07:40 · 948 阅读 · 0 评论 -
sklearn数值特征离散值处理2: Map
import numpy as npimport pandas as pdpoke_df = pd.read_csv('Pokemon.csv', encoding='utf-8')poke_df.head(10)# 随机抽样poke_df = poke_df.sample(random_state=1, frac=1).reset_index(drop=True)# pandas...原创 2019-11-10 22:07:26 · 825 阅读 · 0 评论 -
sklearn数值特征离散值处理1: LabelEncoder
import pandas as pdimport numpy as npvg_df = pd.read_csv('vgsales.csv', encoding = 'ISO-8859-1')vg_df[['Name', 'Platform', 'Year', 'Genre', 'Publisher']].iloc[1:7]genres = np.unique(vg_df['Genre...原创 2019-11-10 21:45:19 · 883 阅读 · 0 评论 -
时间操作datetime,Timestamp,to_datetime,strptime用法
一, datetime.datetime()import datetimedt = datetime.datetime(year=2019,month=11,day=4,hour=10,minute=30)dtdatetime.datetime(2019, 11, 4, 10, 30)print(dt)2019-11-04 10:30:00二, pd.Timestamp()i...原创 2019-11-04 11:50:58 · 5718 阅读 · 2 评论 -
numpy.cumsum()累加和用法
numpy.cumsum(a, axis=None, dtype=None, out=None)axis=0,按照行累加。axis=1,按照列累加。axis不给定具体值,就把numpy数组当成一个一维数组。import numpy as npa = np.array([1,2,3,4])print(np.cumsum(a))[ 1 3 6 10]a = np.array([[...原创 2019-11-03 20:18:52 · 7618 阅读 · 0 评论 -
sklearn文本特征提取-特征数值计算CountVectorizer 学习笔记
CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。参数表作用encodeing使用默认的utf-8即可,分析器将会以utf-8解码raw document...原创 2019-11-01 19:38:22 · 703 阅读 · 0 评论 -
贝叶斯拼写检查器 学习笔记
import re,collections# 把语料中的单词全部抽取出来, 转成小写, 并且去除单词中间的特殊符号def words(text): return re.findall('[a-z]+', text.lower()) # 使用dict时,如果引用的Key不存在,就会抛出KeyError。# 如果希望key不存在时,返回一个默认值,就可以用defaultdic...原创 2019-10-30 18:47:08 · 155 阅读 · 0 评论 -
Categorical将类别转变为数字类型编码
import pandas as pd# 将类别转换为数字cata = pd.Categorical(['c', 'b', 'a', 'a', 'd', 'd'])# 获取原始数据中对应的数字下标,从0开始print(cata.codes)print(cata.categories)[2 1 0 0 3 3]Index([‘a’, ‘b’, ‘c’, ‘d’], dtype=‘ob...原创 2019-10-28 21:28:51 · 3178 阅读 · 0 评论