
笔记
文章平均质量分 64
Kevinxgl
这个作者很懒,什么都没留下…
展开
-
Paddlenlp 修改example里的text_classification对自己的文本分类,基于ernie-tiny
目录一、项目背景二、项目环境三、思路3.1 输入训练数据三级目录一、项目背景之前的短文本分类的项目是基于paddlepaddle1的,但我现在的机器的cuda版本为11.2,不能装paddle1了,我对paddlepaddle不是很了解,也不想重写代码(成本太高了),故想着改一改paddlenlp给的example,来达到文本分类的目的。二、项目环境版本ubuntu5.4.0cuda11.2paddlepaddle2.0.2三、思路当我决定用exampl原创 2021-06-15 15:40:25 · 727 阅读 · 0 评论 -
python bert预训练模型加载,基于tensorflow-hub
python之bert预训练模型加载前言python虚拟环境前期准备模型加载前言我的任务需要发现超短文本的语义(10个字左右的文本),需要对文本进行向量化处理,传统的词频或者tf-idf其实都是以词语的出现频率进行计算的,对于长文本来说还好,毕竟文本越长所包含的信息就越多,但对于短文本来说,传统的方法简直是灾难性的。所以我需要用深度学习的方法来实现这一任务。但深度学习模型首先是需要大量的数据,其次需要硬件支持。我手上的文本虽然多,但大多数都是未标注的超短文本,而且我的硬件也比较一般,毕竟像bert这种原创 2021-04-22 14:22:29 · 2324 阅读 · 6 评论 -
Pandas Dataframe 每隔n行取1行
在做数据分析时,需要对数据进行处理,要求每隔n行取一行。找了几个方法都不是很满意,最后去看了官方文档才想出一个解决方案这里用到的是pandas的read_csv方法里的skiprows参数,记录如下:# 使用skiprows参数,每隔10行取一行radiation_20200701 = pd.read_csv("Utsjoki_Kevo_July_1st.csv",dayfirst=True,sep=",", header=0,decimal=b原创 2021-02-15 22:58:20 · 8607 阅读 · 3 评论 -
利用python分析微信聊天记录
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、任务分析二、使用步骤1.引入库2.读入数据总结前言昨天跟女朋友讨论谁给对方发的消息比较多,两人各执一词,哼哼,我现在就来统计下咱俩谁发的消息比较多!一、任务分析统计微信聊天记录大致分为三步——数据获取、数据清洗和数据分析。下面其中最难的就是数据获取。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.原创 2020-11-23 15:43:29 · 20714 阅读 · 18 评论