自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 Python json库中常用函数和区别。dumps和dump,load和loads

Python json库中常用函数和区别。dumps和dump,load和loads

2023-03-01 08:23:50 157

原创 python面向对象入门

python面向对象基础知识

2022-11-13 11:44:25 129

原创 利用Pandas进行数据处理

使用pandas进行数据预处理,最优美的代码解决问题

2022-11-13 10:25:55 503

原创 torch.nn.functional.embedding的参数理解,尤其是weight

介绍一下我们常用的嵌入函数torch.nn.functional.embedding,先看一下参数:torch.nn.functional.embedding(input, weight, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False)。我们常使用的就是前两个参数。input是在词向量矩阵中的索引列表,词向量矩阵,行数为最大可能的索引数+1,列数为词向量的维度。那么具体是什么含义呢

2022-04-20 09:07:38 5478 4

原创 单纯形法人工变量和松弛变量,剩余变量的区别

问题标准化将一般形式的线性规划模型变为标准形式的三个步骤:决策变量非负化约束条件等式化目标函数最大化然后我们要寻找一个初始可行解,但是有些时候完成标准化的模型并不能照当初始解。如:max⁡Z=x1+x2{2x1+x2≤6x1+2x2≥8x2=2\begin{array}{c}\max Z=x_{1}+x_{2} \\\left\{\begin{array}{r}2x_{1}+ x_{2} \leq 6 \\x_{1}+2 x_{2} \geq 8 \\x_{2} = 2\end

2021-01-18 17:24:09 11402 2

原创 numpy的常用函数与方法

随机数生成随机数的主要函数:import numpy as npa=np.random.randint(0,10,10)#范围内的整数print(a)b=np.random.rand(10)#0到1的均匀分布print(b)c=np.random.randn(10)#标准正态分布print(c)d=np.random.normal(0,1,10)#生成指定正态分布print(d)e=np.random.random(10)#0到1的均匀分布print(e)f=np.random.r

2021-01-16 16:26:05 270

原创 机器学习的数学基础(2)——分类问题

类样本分布以文本分类为例,第nnn个文件xn\mathbf{x_n}xn​在理解似然时,我们必须记住,似然模型是由已知的有标签数据训练得来的。得到p(xn∣tn=c,X,t)p(\mathbf{x_n}|t_n=c,\mathbf{X},\mathbf{t})p(xn​∣tn​=c,X,t)表示对于一个ccc类的数据,它在空间上的概率分布,一般的在远离大部分数据时变小,在靠近时变大。在文本分类的问题上,要想知道似然函数必须知道多项分布P(X=x)=P(x)=N!∏jxj!∏jqjxjP(X

2021-01-06 12:42:07 285

原创 多项分布

组合数与排列数Cnm=n!m!(n−m)!C_{n}^{m}=\frac{n !}{m !(n-m) !}Cnm​=m!(n−m)!n!​Anm=n!(n−m)!A_{n}^{m}=\frac{n !}{(n-m) !}Anm​=(n−m)!n!​多项分布多项分布允许将概率分配给离散变量的向量。举例:假设现在我们要在有JJJ个词的字典中生成一个有NNN词的文本,一种表示这个文本的方法是:y=[y1,y2,...,yn]T\mathbf{y}=[y_1,y_2,...,y_n]^Ty=[

2021-01-05 09:10:23 3247 1

原创 机器学习的数学基础(1)——贝叶斯方法,贝叶斯推理

1. 损失函数的矩阵化一般我们使用如下的均方损失来计算模型的损失:L=1N∑n−1N(tn−w⊤xn)2\mathcal{L}=\frac{1}{N} \sum_{n-1}^{N}\left(t_{n}-\mathbf{w}^{\top} \mathbf{x}_{n}\right)^{2}L=N1​n−1∑N​(tn​−w⊤xn​)2注意到当x\mathbf{x}x的元素变多时,损失的计算就会非常复杂,同时也为了让计算机计算方便我们要将上式变为向量和矩阵的形式:L=1N(t−Xw)⊤(t−Xw)\m

2020-12-24 20:11:34 950 1

原创 自然语言处理实践——1.词向量word2vec的转化

1. 为什么要进行词向量的转化?计算机看不懂我们人类的语言文字,必须转化成机器看得懂的形式才能进行下一步的处理。2. 文字的预处理和词向量化自然语言中有很多字符是无用的(如:“吗”,“的”,“。”,“,”),并且我们希望把整句整段的语言转成容易处理的形式。不过在编程之前我们需要对文件的目标进行良好的规划:data_try文件中我们放了两个对违纪党员干部的通报文件:然后代码如下,这里我们使用的是Pycharm中的jupyter notebook:#%%import pandas as pd

2020-12-21 10:57:41 561

原创 LaTeX如何将两个图并列放在一起?

\begin{figure}[H] \centering %居中 \subfigure[name of the subfigure] %第一张子图 { \begin{minipage}{0.8 \textwidth} \includegraphics[width=6cm]{101.png}\vspace{4pt} \includegraphics[width=6cm]{101.png} \end{minipage} } \subfigure[name of

2020-12-06 20:04:57 11652 1

原创 Numpy的索引操作

切片索引numpy的切片索引是从0开始,左闭右开的。

2020-11-26 08:12:02 420

原创 排队系统手动仿真

Step1. 确定输入及其取值假设客户,系统容量是无限的,到达规则已知,服务机制是常见的‘先到先服务’。到达规律可以定义为:客户到达的时间或者时间间隔,服务机制可以定义为服务单个客人的时间。Step2. 确定输出与系统相关系统中的顾客数量顾客的平均停留时间平均服务长度平均队列长度与顾客相关服务开始时间结束时间队列中等待的时间...

2020-11-17 10:52:45 533 1

原创 pandas的dataframe中的常用函数与练习

groupby这个函数的输入一般为dataframe的某一列,用于和多种函数连用,进而表示一些统计量,如果直接输出groupby的结果,输出:<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000016E4D3D4E48>常用的函数常用的用一下四种,作用分别是:统计同行的可以求和的总和,统计同行的平均值,统计这一种属性出现的次数(NaN也包含在内),统计这一种属性出现的次数(NaN不包含在内)import pand

2020-09-22 23:09:45 485

原创 pandas的dataframe行列索引方法与查询

dataframe的行索引方法有三种,分别为loc,iloc,ixlocloc是基于行索引,或者说是行的名称进行索引的ilociloc是根据行的序列数索引的,序列数从0开始取,iloc前面的i就好像是在提醒你,他的输入参数是常数。ixix是前两者的混合,输入任何一种都可以。...

2020-09-14 20:09:47 51824 2

原创 pandas生成dataframe的两种方式

生成dataframe的两种方式分别为:使用data,index,column方法和使用字典输入的方法,见代码:import pandas as pdcolumn_1 = [1,2,3]column_2 = ['hunan','hubei','beijing']column_3 = [[1,'hubai'],[2,'hunan'],[3,'beijing']]df = pd.DataFrame({'省份' : column_2, '人数' : column_1})df1 = pd.DataF

2020-09-14 20:04:38 1137

原创 机器学习分类问题实践——sklearn.preprocessing.MultiLabelBinarizer在中文one-hot编码中的应用

MultiLabelBinarizer在机器学习自然语言处理的分类问题中,我们经常需要处理大量的中文字符,我们希望知道每一条数据中的某个数据项的出现中文字符的种类,并且进行标注从而进行下一步的处理。这样描述比较抽象,举个例子,在处理党员干部的违规违纪通报时,对不同违纪的干部有不同的处分,如开除党籍,警告等,现在我们有100条党员干部的违纪通报,希望将每一个干部的处分转化为由0和1组成的序列。from sklearn.preprocessing import MultiLabelBinarizer as

2020-09-09 10:07:33 547

原创 keras.preprocessing.sequence.pad_sequences

pad_sequencespad_sequences 一般与keras.processing.text中的序列连用,用于给长度少于某个值的数列补零。from keras.preprocessing.sequence import pad_sequencessequences = [[1 2 3 4 5 6]]sequences = pad_sequences(sequences,maxlen=10,padding="post",truncating="post")结果为:[[1 2 3 4 5

2020-09-08 08:59:52 1494

原创 keras.preprocessing.text.Tokenizer

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入keras.preprocessing.text.Tokenizerpad_sequences欢迎使用Markdown编辑器

2020-09-07 22:22:42 762

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除