自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 资源 (2)
  • 问答 (4)
  • 收藏
  • 关注

原创 Transformer 快速入手get start

文章目录1.pretrained models2.使用模型3.调参Customizing the modelhttps://huggingface.co/transformers/quicktour.html在transformer官网,的快速入手中,会提供些pipeline,封装了些实例,让我们快速上手,只需要简单的调用就能实现,分词,命名实体识别。from transformers import pipelineclassifier = pipeline('sentiment-analysis'

2020-12-06 17:38:20 757

原创 Transformer 理解Tokenizer

文章目录1.tokenizer1.介绍1.1 Subword tokenization1.Byte-Pair Encoding (BPE)2.Byte-level BPE3.wordpiece4.Unigram5.SentencePiece1.tokenizer1.介绍from transformers import AutoTokenizer, AutoModelForSequenceClassificationmodel_name = "distilbert-base-uncased-finet

2020-12-06 13:52:13 9031

原创 NLP录播课笔记一

文章目录一、NLP定义及歧义性(视频3)二、机器翻译case study(视频4-5)2.1 如何做一个简单的机器翻译呢?2.2三、NLP的应用场景(视频6)一、NLP定义及歧义性(视频3)NLP = NLU + NLGNatural Language Understanding:通过文本理解其意思Natural Language Generation:通过意思meaning生成文本为什么NLP 比CV(computer vision)更难?因为计算机视觉,图像所见即所得,而人看文本是看他背后所

2020-11-25 15:54:07 1376

原创 TYD-python数据分析与机器学习实战(文本挖掘部分笔记)

文章目录一、19章 Python文本数据分析:新闻分类任务1.1 TF-IDF:关键词提取1.2 文档相似度1.3 TF-IDF结巴提取1.4 LDA主题模型一、19章 Python文本数据分析:新闻分类任务1.1 TF-IDF:关键词提取TF就是Term Frequency 词频,IDF 是Inverse Document Frequency1.对语料/文本进行词频统计(Term Frequency),比如说对《中国的蜜蜂养殖》这个文本进行统计2.出现最多的是:的,是,在等常用词,也就是停用词,

2020-11-17 11:14:03 384

原创 唐YD深度学习入门视频课程

文章目录一、LSTM1.1 控制参数C 如何有选择地丢弃无用数据1.2 如何保存信息1.3 丢弃数据+保留数据后更新控制参数C1.4 更新完控制参数C后,输出数据1.5 总结二、LSTM情感分析2.1介绍2.2 实际流程学习网址:唐YD深度学习入门视频课程章节6章最后一讲,和第七章一、LSTMRNN网络的缺点是,所有属性信息都会记下来,不会遗忘。而LSTM比RNN多了个C:控制参数,保留有价值的信息那么是如何C控制参数是如何保留信息的呢?是通过下图中的门单元,让信息选择式通过门单元可以

2020-11-16 16:53:08 388

原创 自然语言处理--实战分词NLP

文章目录一、分词方法1.1 规则分词1.1.1 正向最大匹配1.1.2 逆向最大匹配1.1.3 双向最大匹配1.1.4 错误率比较1.2 统计分词1.2.1 主要思路1.2.2 语言模型1.2.3 隐马尔可夫HMM模型思路1.3 混合分词(规则+统计)一、分词方法分词的难点:对歧义词的识别1.1 规则分词基于词库里的一个个词进行切词,缺点是不能处理新词经典算法:正向最大匹配,逆向最大匹配,双向最大匹配1.1.1 正向最大匹配1.统计词典内最长的词有多少字?记为最长词长m2.对一个句子从左往右

2020-11-16 08:34:42 469

原创 Python(网易云课堂1-20章)

一、查找下面这个列表从左往右数第六个值list1=[32,12,31,531,512,54,12,3,1]答:print(list1[5])#返回56————————————————————————————————————————————————考察列表切片,查找下面这个列表从左往右数,第3到第6个元素list1=[32,12,31,531,512,54,12,3,1,5313,1235,1255,2]答:list1[2:6]注意,列表切片左包又不包。...

2020-11-02 16:24:31 478

原创 商务统计分析(第3章 数据描述)

文章目录一、描述数值的度量1.1 集中趋势1.平均数2.中位数3.众数1.2 离散程度1.全距/极差2.方差、标准差3.变异系数4.Z值5.分布形状1.3 总体数据的数值型描述度量1.经验法则(适用于数据对称)2.切比雪夫法则(适用于不对称的数据)1.4 描述两个变量之间的关系的度量1. 协方差(covariance)2.相关系数(coefficient of correlation)一、描述数值的度量在统计应用中,对数值变量进行总结和描述的时候,通常从三个维度进行分析1. 集中趋势:所有数据观测值是

2020-10-27 15:18:11 2427

原创 MySQL1【个人学习笔记】

目录一、安装设置二、登入数据库、选中表、查看表信息2.1 登入退出2.2 查询数据库服务器中有哪些数据库2.3 选中某个数据库 (use database_name;)2.4 显示指定数据库下的所有表2.5 显示表的属性(features,attributes)信息2.6 显示数据表的详细索引信息2.7 查看表格结构2.8 查看表格里的所有样本2.9 查看数据库中所有表的状态三、一、安装设置https://www.runoob.com/mysql/mysql-install.html账户名cjr二、

2020-10-19 15:44:40 2066

原创 MySQL2【个人学习笔记】

文章目录一、分页查询1.应用场景2.案例3. 公式二.练习三、联合查询 union四、插入语句1.语法12.null值处理3.顺序可颠倒4.列数和值的个数必须一致5.可以省略列名,默认就给你加上所有名6.插入语法2【set】7.两个插入语法的对比五、修改语句1.修改单表的记录一、分页查询1.应用场景一页显示不全,需要分页提交sql请求select 查询列表from 表join 表2on 连接条件wheregroup byhavingorder bylimit 起始索引(从0开始),

2020-10-15 09:12:21 840

原创 如何生成youtube token

1.注册谷歌账号2.登入谷歌开发者中心 developer console 开发者中心3.创建项目4.启用API服务,勾选youtube5.配置同意屏幕只能选供外部使用然后设置应用名称,保存6.创建凭据7.生成API 和 OAuth 客户端ID选择桌面设备然后下载json文件8.命名Json文件 client_serecet_x.json9.将json文件放到如下程序同目录import osimport numpy as npimport google_auth_oau

2020-06-07 10:27:08 438

原创 TYD深度学习入门 第六章 递归神经网络

目录课时49 递归神经网络原理课时52 LSTM网络结构 (长短期记忆网络)课时49 递归神经网络原理传统的神经网络,第一次传入神经网络的数据,对第二次传入的数据是没有影响的,样本之间 相互独立然而在实际生活中,数据很多都是有联系的,“我在中国我说汉语”。这句话中中国和汉语就是有上下文联系的递归神经网络,会在中间的隐藏层进行循环,保留之前的参数信息,使得之后的输入能力用得上之前的信息。...

2019-12-26 12:08:26 244

原创 TYD深度学习入门 第二章

目录课时9 梯度下降通俗解释课时10 参数更新的方法课时12 反向传播课时13 神经网络整体框架第二章 神经网络课时9 梯度下降通俗解释引入:当得到一个目标函数之后,如何进行求解?线性回归可以看作一个特例,可以直接求解得到。而其他目标函数不一定能求解得到。由上softmax得到一个目标函数(损失函数)如何进行求解得到最好的W参数呢?向着损失函数(loss function)减小的方向去做...

2019-12-26 10:40:55 460

原创 TYD深度学习入门 第一章

目录章节1 深度学习必备基础知识课时1 深度学习要解决的问题课时2 深度学习应用领域课时3 计算机视觉任务章节1 深度学习必备基础知识课时1 深度学习要解决的问题人工智能包含了机器学习,机器学习里又包含了深度学习机器学习流程:数据获取,特征工程,建立模型,评估与应用不同视角看待神经网络:不应将其看作是算法,而是一种特征提取的方法数据特征决定了模型的上限,预处理和特征提取是最核心的。算...

2019-12-23 19:56:35 756

原创 识别一句话中的网络地址URL链接并替换或删除

import repattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')df = df.apply(lambda x:re.sub(pattern,'URL',x))

2019-12-15 10:24:28 422

原创 论坛爬虫-重复回复字符串清楚代码

for i,x in enumerate(data[2]): for a,y in enumerate(data[2][i+1:]): if str(x) in str(y): data.iloc[a+i+1,2]= data.iloc[a+i+1,2].replace(str(x),'')

2019-12-14 20:33:15 167

原创 算法(K近邻)

目录一、KNN算法原理二、代码应用一、KNN算法原理近朱者赤近墨者黑计算待分类样本与其他训练样本的距离统计距离最近的k个邻居对于k个最近的邻居,他们属于那个分类最多,待分类样本就属于哪一类(回归就取平均值)K的值要通过交叉验证和网格搜索进行确定如何计算待分类样本与训练样本之间的距离?欧氏距离计算两个样本间,n个属性(维度)之间的差值的平方例如二维空间,计算(2,1)到...

2019-10-06 19:58:28 159

原创 Gaussian Mixtures 聚类算法

目录一. 算法介绍1.1简介1.2 GMM变体variant混合高斯模型一. 算法介绍1.1简介混合高斯模型 Gaussian mixture model (GMM) 是一种概率模型,它假定样本是由多个参数未知的高斯分布(二维时叫做正态分布)的混合生成的。is a probabilistic model that assumes that the instances were genera...

2019-09-30 14:48:10 572

原创 其他聚类算法

目录一、Agglomerative clustering1.1 凝聚聚类算法简介二、Birch 聚类算法2.1 简介三、Mean-shift 算法3.1简介四、Affinity propagation4.1 简介五、Spectral clustering5.1简介sklearn提供了其他很多聚类算法一、Agglomerative clustering1.1 凝聚聚类算法简介cluster...

2019-09-30 11:37:15 539

原创 DBSCAN 算法

目录一、算法思想二、sklearn例子2.1 Basic2.2 没有predict()方法三、总结一、算法思想对于每一个样本,算法会计算在一段小距离ε(epsilon)内的圆中有多少个其他样本,这个圆形区域叫做样本的 ε-neighborhood如果一个样本有最少 min_samples个样本在 ε-neighborhood中(包括此样本本身),就认为这个样本是core instance(...

2019-09-30 10:30:48 947

原创 KMeans算法

目录一、基本概念二、Centroid Initialization Methods三、Mini-Batch K-Means四、找寻最优的聚类数量4.1 拐点4.2 silhouette score 轮廓分数五、Kmeans的限制六、利用Kmeans做preprocessing无监督问题,将相似的样本分到一组,难点是如何评估和调参注意!!!!!!!:对输入数据进行标准化很重要!!!!it is...

2019-09-30 09:39:49 3646

原创 安装lightgbm GPU版本

reference:https://zhuanlan.zhihu.com/p/552591121. 安装Visual Studio 2017具体组件安装勾选如下,进行安装2. 记得安装 windows SDK能解决CMake报错https://developer.microsoft.com/en-us/windows/downloads/windows-10-sdk...

2019-09-20 15:31:09 630

原创 3. Pandas数据预处理

目录一、删除属性/特征选择1.1 删除某几列无用的属性、特征1.2 选择,保留某些特定属性1.3 更改特征,属性列的顺序1.4 删除只有一个值的属性二、缺失值处理2.1 只要有缺失值null就删除该行样本2.2 样本中有x个以上的缺失值才删除该行样本2.3 样本种所有数据都缺失才删除该行样本2.4 使用属性列的均值来填充缺失值2.5 使用特定值来填充缺失值2.6 使用缺失值的前一个/后一个值代替N...

2019-09-18 21:18:21 4327 1

原创 1.深度学习基础

目录一、计算机视觉1.图像在计算机中长什么样一、计算机视觉1.图像在计算机中长什么样一张图片被表示成三维数组的形式,每个像素的值从0-255例如: 300 x 100 x 3...

2019-09-12 10:01:24 149

原创 5.实操(美国两党预测)

目录一、数据预览1.Data.head()2. Class分布预览1.3 其他1.4 问题二、数据预处理2.1 将class值从REP、DEM变成0,12.2 one-hot变换2.3 测试集、训练集分离三、模型构建3.1 随机森林一、数据预览1.Data.head()2. Class分布预览1.3 其他无缺失值class 名称是 'cand_pty_affiliation '...

2019-09-06 09:16:21 1070 1

原创 4.实操(Credit Card Fraud Detection)

目录一、数据挖掘流程二、Data Preview2.1 data. shape2.2 data. head()2.3 data.describe()2.4 check NaN2.5 Class Distribution2.6 correlation heatmap三、问题+方案3.1 发现的问题3.2 方案四、Data Preprocessing4.1 Standardization一、数据挖掘...

2019-09-04 16:40:17 2728

原创 matplotlib初级画图

目录一、常用技巧1.1 导入包1.2 设置绘图样式1.3 显示图形1.4 将图像保存成文件二、初级画图2.1 figure和axes画布和坐标轴对象2.2 画一个正弦图一、常用技巧1.1 导入包import matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inline1.2 设置绘图样式plt.style.use...

2019-09-03 13:50:23 781

翻译 算法(XGBoost)

目录一、Get Started with XGBoost二、XGBoost算法介绍2.1 Objective Function:2.1.1 Training Loss Function2.1.2 Regularization Term2.2 Decision tree ensemble model2.3 Tree Boosting2.4 Model Complexity(优化正则化项)2.5 Th...

2019-08-31 14:36:53 515

原创 1.实操(Titanic)

目录一、Data Preview1.1 Data Structure1.2 Data head()1.3 Null Detection1.4 Check 'Survived' distribution二、Data preprocessing2.1 Concatenate Train and Test Data Together2.2 Drop Useless Features2.3 Deal wi...

2019-08-27 14:33:49 658

原创 自制模型评估函数

def evaluate_cv(clf,features_data,label_data): # 以下是生成10-cross-validation结果的代码 import numpy as np from sklearn.model_selection import cross_val_score, cross_validate print('***********...

2019-08-26 15:46:12 287

原创 2.Pandas预览数据

目录1.设置Pandas显示参数2.浏览头5行,后5行数据3.检查数据是否存在缺失值3.1 普通检查3.2 复杂检查(能显示缺失百分比)3.3最终检查4. 了解数据的属性名,数据量,数据类型(data_type)5.了解数据的均值、方差、最大最小值...6.了解数据的形状(几行几列)7.获取属性名/列名7.1返回index对象7.2返回array对象7.3变成列表list格式8. 查看featur...

2019-08-25 16:23:28 1532

原创 1. Pandas 导入导出数据

一、利用Pandas导入数据1.导入Excel,CSV文件import pandas from pddata = pd.read_excel('data_file_location') #encoding = ’gbk’ data = pd.read_csv('data_file_location’) #engine=’python’ ...

2019-08-25 09:29:12 418

转载 Jupyter 如何更改运行环境

Jupyter 如何更改运行环境1. 在菜单栏里输入 anaconda prompt2.输入命令conda install nb_conda,并安装nb_conda3.安装完后,Jupyter就有新环境能选择了https://jingyan.baidu.com/album/14bd256e86ecb4bb6c261254.html?picindex=5...

2019-08-24 20:58:01 13507 2

李子柒油管评论数据.csv

李子柒油管评论数据完整版.csv (用于语义分析)是李子柒关于粽子端午节那期视频的评论数据。包含了,评论日期时间,点赞数量,评论,用户id

2020-06-27

liziqi.csv

liziqi评论,点赞数最多的1000个评论啦

2020-06-27

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除