2020年05月_AItrust

10月 09月 08月 07月 06月 05月 04月 03月

原创 C# 基础程序结构和入门实例（学习心得 2）

C# Hello World 实例C# 最小的程序结构需要包含以下部分：命名空间声明一个 class一个 Class 方法该 Class 方法的属性一个 Main 方法语句 Statements 和表达式 Expressions注释实例：using System;// 用于在程序中包含 System 命名空间。namespace my_first_program // 指定命名空间的名字，可包含多个类{ class Program // 指定

2020-05-31 17:43:35 478

原创什么是 C# ，什么是 .Net 框架（.Net Framework）及其开发环境（学习心得 1）

C# 是 .Net 框架的一部分用于编写 .Net 应用程序文章目录.Net 框架（.Net Framework）C# 的集成开发环境（Integrated Development Environment - IDE）.Net 框架（.Net Framework）用于编写应用程序。比如：Windows 应用程序，Web 应用程序等。这个框架下面支持多种语言，同时编写的应用程序也支持多平台，多种语言之间还能彼此交互。.Net 框架拥有一个巨大的代码库，提供给客户端语言比如 C# 使用C# 的集

2020-05-31 17:39:32 1253

原创 NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示（基于 word2vec-google-news-300 预训练模型，附下载）

Gensim 库的使用之 Word2Vec 模型案例演示要见识一下 Word2Vec 模型可以做什么，那么最好的方法就是直接下载一个预训练模型，然后尝试用一下看看效果。我们在这里获取一个在 Google News 数据集上训练完成的 Word2Vec 模型，覆盖了大约 300 万的词汇和短语。这样一个模型需要几个小时来进行训练，但是既然 Google 已经将其公开，那直接花几分钟下载下来就能用了。！！！注意：该模型大小约 2GB，而且需要科学的方法才能下载！实在无法解决网络问题的朋友，可以用我提供的

2020-05-30 17:35:17 13286 15

原创 NLP 利器 gensim 库基本特性介绍和安装方式

试用了一下 gensim 效果确实不错，而且操作比较简洁，所以觉得应该推广一下本篇简介的内容皆翻译自官网，有兴趣的可以自行查阅英文信息：gensim官网Gensim 是一个免费的 Python 库一、3大任务：可扩展的统计语义分析纯文本文档的语义结构检索语义相似的文档二、8大特点：1.1 可扩展性 ScalabilityGensim 可以处理大量的，互联网尺度的语料，使用的是增量在线训练算法。不需要把所有的训练语料一次加载到内存中。1.2 高效实施 Efficient imp

2020-05-29 23:16:06 675

原创 Python Pandas 图形绘制（三）：散点图（单维度和交叉维度）

Pandas 图形绘制（三）准备数据：1. 散点图（单维度）df.plot.scatter2. 散点图（交叉维度）x,y,c准备数据：import matplotlib.pyplot as pltimport pandas as pddata = {'name' : pd.Series(['Alice', 'Bob', 'Cathy', 'Dany', 'Ella']), 'English' : pd.Series([3, 2.6, 2, 1.7, 3]), 'Ma

2020-05-28 22:10:43 9236 2

原创 Python Pandas 图形绘制（二）：直方图

直方图(Histogram)又称质量分布图。经常用来表示数据的分布情况。一般用横轴表示数据类型（区间），纵轴表示分布情况（频数）。Pandas 图形绘制（二）：直方图1. 对单列数据绘制直方图 df.hist2. 对所有数据绘制多子图直方图 df.hist3. 累计直方图 cumulative=True4. 交叉直方图/重叠显示直方图 df.plot.hist5. 堆叠直方图/叠加显示直方图 stacked=True6. 水平直方图 orientation='horizontal'1. 对单列数据绘

2020-05-27 21:22:09 28382

原创 Python Pandas 图形绘制（一）：折线图，柱状图

Pandas 图形绘制（一）：折线图，柱状图一、折线图 Line Chart1.1 默认绘制折线图 df.plot1.2 绘制多条折线二、柱状图 Bar Chart2.1 垂直柱状图 df.plot.bar2.2 叠加柱状图 stacked=True2.3 水平叠加柱状图 df.plot.barh一、折线图 Line Chart1.1 默认绘制折线图 df.plotimport matplotlib.pyplot as pltimport pandas as pdimport numpy as n

2020-05-26 22:14:06 17138

原创 Python Pandas 数据合并/融合 merge 数据过滤 isin

Pandas 数据合并/融合，数据过滤数据准备：一、数据合并 pd.merge1.1 把右边的数据融合到左边1.2 把左边的数据融合到右边1.3 取交集1.4 取并集二、数据过滤 isin2.1 对原数据集进行筛选，留下与新数据集交集的行数据2.2 对原数据集进行筛选，去除与新数据集交集的行数据（留下不在新数据集中的行）数据准备：import pandas as pd# 假设有 5 个人，分别参加了 4 门课程，获得了对应的分数# 同时这个 5 个人分别负责的项目个数在 'Project_num'

2020-05-25 19:42:41 2178

原创 Python Pandas 处理空数据/缺失数据 dropna fillna，增加/更新列 assign，分层 qcut，向量函数

Pandas 处理空数据/缺失数据，增加/更新列，分层，向量函数数据准备一、处理缺失数据1.1 去除有缺失数据的行 dropna1.2 替换缺失数据 fillna二、增加/更新列2.1 指定生成列的方式2.2 复制现有的列生成新的列2.3 利用现有的列数据，按照函数生成新的列2.3.1 方式一2.3.2 方式二2.3.3 方式三2.4 对现有列数据进行更新三、分层 pd.qcut3.1 方式一3.2 方式二3.3 方式三四、向量函数 max,min,clip,abs4.1 纵向/列取最大值 df.max4.

2020-05-24 21:26:12 866

原创 Python Pandas 数据分组 pd.groupby 的相关操作（二）shift, rolling, rank, cumsum, agg

Pandas 数据分组 pd.groupby 的相关操作（二）数据准备一、数据平移 df.shift1.1 上下平移1.2 左右平移1.3 分组数据平移二、数据滚动 df.rolling2.1 滚动求和2.2 滚动求均值三、排名 df.rank3.1 总排名3.1 分组后，针对某一列排名3.2 排名序号限定于 0～1 之间 ptc3.3 排名方法 method='first' / 'min' / 'max' / 'dense'四、累计4.1 累加 df.cumsum4.2 累计迭代最大值/最小值 df.cu

2020-05-23 13:42:59 6669 1

原创 Python Pandas 数据分组 pd.groupby 的相关操作（一）

Pandas 数据分组 pd.groupby 的相关操作（一）数据准备一、分组并统计各组数量 df.groupby().size()1.1 按列内元素进行分组 df.groupby(by='label')1.2 按 index 做分组 df.groupby(level=0)二、分组显示（类似迭代器）2.1 针列不同元素进行分组显示2.2 对 index 的不同项目进行分组显示2.3 针对多列进行叠加分组显示数据准备import pandas as pd# 假设有 5 个人，分别参加了 4 门课程，获

2020-05-22 22:54:15 8267

原创 Python Pandas 常用统计数据方法汇总（求和，计数，均值，中位数，分位数，最大/最小，方差，标准差等）

Pandas 统计数据方法汇总准备数据：一、数据的总体描述1.1 统计行数 len(df)1.2 统计有多少种不同的值 df['lable'].nunique()1.3 对列中每种不同的值进行计数 df['lable'].value_counts()1.4 整体统计描述 df.describe()1.4.1 仅对数值型1.4.2 对所有类型 df.describe(include='all')1.4.3 对指定的列二、指定统计方式2.1 求和 sum()2.2 计数 df.count()2.3 中位数

2020-05-21 16:42:50 91132

原创 Python Pandas 列数据筛选方法汇总

Pandas 列数据筛选方法汇总数据准备：一、筛选得到指定的列1.1 根据 label 选择特定的几列1.2 选择单列的两种方式1.3 通过正则表达式选择列二、同时对行和列进行筛选2.1 通过切片 df.loc[ : , : ]2.2 通过选择序号选择列 df.iloc[ : , : ]2.3 对特定列的数据进行逻辑筛选数据准备：import pandas as pd# 假设有 5 个人，分别参加了 4 门课程，获得了对应的分数data = {'name' : pd.Series(

2020-05-20 20:21:09 45404

原创 Python Pandas 行数据筛选方法汇总

Pandas 行数据筛选一、准备数据二、通过逻辑规则筛选（大于/小于等）三、删除重复元素三、显示最前面 / 最后面的 n 行3.1 显示前面 n 行3.2 显示后面 n 行四、随机抽取4.1 随机抽取一定比例4.2 随机抽取 n 行五、切片选取特定范围六、排序并选取最值6.1 选取最大的 n 个值6.2 选取最小的 n 个值一、准备数据import pandas as pd# 假设有 5 个人，分别参加了 2 门课程，获得了对应的分数data = {'name' : pd.Series(['Alic

2020-05-19 20:48:24 22536

原创 Python Pandas 数据拼接/排序/重置

Pandas 数据拼接/排序/重置一、数据拼接1.1 行拼接（纵向，第 0 维）pd.concat([df1,df2])1.2 列拼接（横向，第 1 维）pd.concat([df1,df2], axis=1)二、排序2.1 从小到大排序（默认）df.sort_values()2.2 从大到小排序（逆序）df.sort_values(ascending =False)2.3 对 index 进行排序 df.sort_index()2.4 对 index 进行重置（变成默认的0～n）df.reset_inde

2020-05-18 19:15:31 2485

原创 Python Pandas 改变数据结构 Reshaping Data

Pandas - Reshaping Data一、案例数据准备二、将所有数据展开，汇聚到行显示2.1 全展开2.2 展开特定的列三、将汇聚的数据分散到列显示（类似数据透视表）3.1 显示其中一列3.2 显示其中一行一、案例数据准备import pandas as pd# 这里假设我们有 5 个人，每个人有 2 种属性数据，共 15 个元素d = {'name' : pd.Series(['a', 'b', 'c', 'd','e'], index=[0,1,2,3,4]), 'attri_1'

2020-05-17 19:55:50 601

原创 Python Pandas 对列/行 Column/Row 进行选择，增加，删除操作

Pandas 的列/行操作一、列操作1.1 选择列1.2 增加列1.3 删除列（del 和 pop 函数）二、行操作2.1 选择行2.1.1 通过 label 选择行（loc 函数）2.1.2 通过序号选择行（iloc 函数）2.1.3 通过序号选择行切片2.2 增加行（append 函数）2.3 删除行（drop 函数）一、列操作1.1 选择列d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 'two' : pd.Series(

2020-05-16 19:26:56 9462

原创 Python Pandas 创建 DataFrame 的四种方法

Pandas 是 Python 的一个数据分析包，最初由 AQR Capital Management 于2008年4月开发，并于2009年底开源出来，目前由专注于 Python 数据包开发的 PyData 开发团队继续开发和维护，属于 PyData 项目的一部分。Pandas 最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。Pandas 的名称来自于面板数据（panel data）和 Python数据分析（data analysis）。在深度学习中 Panda

2020-05-15 20:29:12 108392

原创 Python的并行处理模块multiprocessing，把你的处理速度翻N倍

深度学习中，我们常常需要处理海量的数据所以为了节约时间，要充分压榨CPU/GPU的计算能力，那并行处理是不可少的！而万能的 Python 自带一个非常简单易用的并行处理模块：multiprocessing，这里介绍其中一种用法这种用法非常适合嵌入到深度学习数据处理中程序实现：from multiprocessing import cpu_count, Poolimport numpy as npimport time# cpu 数量cores = cpu_count()# 分块个数p

2020-05-14 22:25:32 1767

原创中文NLP的第三步：获得词向量/词嵌入 word embeddings，基于 PaddleHub 实现（学习心得）

之前的步骤中，我们已经把句子进行了词语切分中文NLP的第一步：分词，基于 PaddleHub 实现，绝对小白友好（学习心得）然后把这些切好的词，根据现成的词表，转化成了 ID中文NLP的第二步：分词转词表ID，基于 PaddleHub 实现（学习心得）第三步，把词语转化为 word embeddings这里我们依然使用 PaddleHub 提供的 word2vec_skipgram 模型，模型的介绍可以见上一篇程序实现：import numpy as npfrom scipy.spatia

2020-05-13 17:26:01 3711 1

原创一条语句实现Python字典 key 和 value 对调

程序实现：a = {1:'a',2:'b',3:'c'}b = {value:key for key,value in a.items()}print(b)运行结果：{'a': 1, 'b': 2, 'c': 3}

2020-05-12 20:56:58 1255 2

原创 Python最简单的永久存储：pickle模块

现在深度学习很多使用的是动态图，方便调试程序但是随之也带来了一个问题，就是如果程序中途，我们关闭了运行环境那再进入以后，中间变量就没了，要从头运行一遍对于深度学习来说，很多数据的处理也能是批量进行，中间变量如果一旦损失，那非常浪费时间那最好的方法就是把内存中的数据暂时存放到硬盘上，这样就断电也不丢失啦！在 Python 中，虽然有很多存储模块，但是我觉得最简单的就是 pickle 模块了程序案例：import pickleimport numpy as npa = np.array([[

2020-05-11 20:08:22 219

原创中文NLP的第二步：分词转词表ID，基于 PaddleHub 实现（学习心得）

上一步我们做了分词：中文NLP的第一步：分词，基于 PaddleHub 实现，绝对小白友好（学习心得）第二步是把分词结果，对照词表转化成 ID词表是什么呢？首先我们要知道，中文字符是没办法直接计算的，更不要说进一步的操作了，所以我们需要的是词嵌入，获得 word embedding，详见：为什么NLP中需要词嵌入 word embeddings（学习心得）而词语要转化为 word embedding 之前，先要根据词表转化为对应的序号 ID，这样转化程序才知道你转化的是哪个词所以这里面是 2

2020-05-10 14:56:36 2822

原创中文NLP的第一步：分词，基于 PaddleHub 实现，绝对小白友好（学习心得）

接下来的几天，会分步进行阐述 NLP 的实际程序操作由于深度学习硬件资源的稀缺性，所以了 PaddlePaddle 作为这次实操的框架平台，虽然 Paddle 在国际上的流行度比不上 tensorflow 等架构，但是在国内 Paddle 对于开发者还是非常友好的，尤其是入门级的同学，在 Paddle 社区里面可以用中文提问和探讨，相对上手门槛就低了很多，外加有不少中文教程，确实对小白们很友好。另外，Paddle 上有免费的 GPU 资源可以用！！！而且是 Telsa V100，没概念的可以自己搜一下

2020-05-09 20:18:49 3476 1

原创语音识别 Speech recognition 中的 CTC cost，CTC损失函数（学习心得）

seq2seq 模型在语音识别方面的应用让人激动！什么是语音识别问题呢？气压随着时间推移不断变化，产生了音频人的耳朵可以衡量不同频率和强度的声波输入整个原始的音频片段 raw audio clip生成一个声谱图 generate a spectrogram（横轴是时间，纵轴是声音的频率，颜色显示声波能量的大小）伪空白输出 false blank outputs：经常用于预处理步骤，在输入到神经网络之前过去一段时间，语音识别是基于音位 phonemes 来构建的而音位是由人工设计而成 h

2020-05-08 22:05:57 1513 5

原创 NLP中的注意力模型 Attention model（学习心得）

Attention model intuition在前面的 seq2seq 模型基础上做些改进，形成注意力模型Attention 的思想已经是深度学习中最重要的之一给定一个非常长的法语句子前面讲到的模型，会把原句子输入编码，然后解码生成翻译但是人类的做法是，一小部分，一小部分地进行翻译以 Bleu score 来说机器翻译对于短句子的处理效果较好长句子的表现就会越来越差而注意力...

2020-05-07 20:24:26 828

原创 NLP机器翻译任务中，如何用Bleu score评价翻译质量（学习心得）

机器翻译的一大难题是，一句法语句子，可以有多种英文翻译，这些翻译都是非常好的那怎么去评估一个机器翻译系统的质量是不是好呢？这不像图像识别，只有一个正确答案通常我们有 BLEU score（Bilingual Evaluation Understudy 双语评估替补）来解决在戏曲界，understudy 指的是候补演员假设我们拿到一句法语同时得到几个人类翻译的结果（都是对的，也都...

2020-05-06 19:31:55 1849

原创 NLP语言模型，机器翻译任务中的贪心搜索 Greedy search 和集束搜索 Beam search（学习心得）

Picking the most likely sentence可以把机器翻译，想像成建立一个条件语言模型 a conditional language model语言模型，可以用来估计一个语句的概率也可以根据第一个输入，来产生后续的输出机器翻译模型，有两个网络，分别是编码网络和解码网络，对应上面的绿色和紫色可以发现，后面的解码网络，和语言模型非常类似所以这两个模型的区别在于，语言模...

2020-05-05 22:10:35 1210 2

原创 NLP中的余弦相似度 Cosine similarity 是什么，如何计算（学习心得）

余弦相似度 Cosine similarityTo measure how similar two words are, we need a way to measure the degree of similarity between two embedding vectors for the two words. Given two vectors ???? and ????, cosine simil...

2020-05-04 19:19:41 4064

原创为什么NLP中需要词嵌入 word embeddings（学习心得）

NLP中一个关键理念就是词嵌入。这是语言表示的一种方式。让机器理解词语的对应关系。我们的词表，比如有10000个词，如果我们都是用 one-hot vector 来表示比如两个 one-hot vector，分别是 man 和 woman。比如 Man 这个单词，在 5391 处是 1，其他位置都是 0Woman，在 9853 处是 1，其他位置为 0这种方法把每个词孤立起来了。算法...

2020-05-03 19:36:32 1115 2

原创 OpenCV绘制透明底的图片，简单易懂讲解alpha通道怎么用

今天忽然想做抠图和图形绘制，那这里就涉及到一个透明底的问题OpenCV是很强大的，但是网上大多教程并没有讲清楚 alpha 通道的参数怎么设置首先我们来看最简单的非 alpha 通道代码：import numpy as npimport cv2# 初始化一块400*400的画布，注意这里的画布是三通道的，也就是彩色图像image = np.zeros((400, 400, 3), d...

2020-05-02 15:49:32 4321

原创人体骨骼关键点检测的初尝试

关于人体骨骼关键点模型的介绍，请见上一篇博客：PaddleHub人体姿态检测模型pose_resnet50_mpii由于群友讨论到舞蹈视频，所以想了下，可以用这个搞事情来个荧光棒舞怎么样！！！于是我打算拿寡姐来试试：使用关键点检测后：看来检测的还是比较准的然后我开始了艺术创作。。。。对于每一个关键点，进行坐标计算和相应的连线操作，然后。。。我觉得寡姐的粉丝要打我了。。。关于...

2020-05-01 20:09:38 883

百度开源的深度强化学习框架PARL源代码

ARL 框架的名字来源于 PAddlepaddle Reinfocement Learning，是一款基于百度 PaddlePaddle 打造的深度强化学习框架。PARL 与现有强化学习工具和平台相比，具有更高的可扩展性、可复现性和可复用性，支持大规模并行和稀疏特征，能够快速对工业级应用案例的验证。这个在 github 上是开源的，但是鉴于有些朋友工具受限下载很慢，所以特地搬运过来！

2020-06-16

lee_background.cor

lee background corpus 是一个小型的英语语料，用于演示 word2vec 模型的 demo，以熟悉什么是词向量模型

2020-06-02

超级强大的流程图，脑图，架构图，网络结构图绘制工具 mac 版 draw.io-13.0.3.dmg

draw.io 是一款超级强大的免费的图表编辑工具, 可以用来编辑工作流, BPM, org charts, UML, ER图, 网络拓朴图等。支持流程图，架构图，原型图等图标。支持Github，Google Drive, One drive等网盘同步，并且永久免费。

2020-05-31

word2vec-google-news-300.zip.010

Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型，覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成！由于文件太大，将压缩包分成了10个部分。

2020-05-30