python
文章平均质量分 50
qq_48566899
这个作者很懒,什么都没留下…
展开
-
c语言教程--day1
在C语言中,main函数是程序的入口点,是程序执行的起点和结束点。Eclipse:Eclipse 是另一个功能强大的集成开发环境,虽然它最初是为 Java 开发设计的,但通过安装 C/C++ 插件,可以使其支持 C 语言开发。Vim 和 Emacs:这两个是传统的文本编辑器,它们有着强大的编辑功能和高度的可定制性,对于熟练的用户来说非常强大,有很多插件和配置可以支持C语言的开发。Atom:Atom 是一个开源的文本编辑器,由 GitHub 开发,它有很多插件和主题,可以定制为一个适合 C 语言开发的环境。原创 2024-05-11 17:20:09 · 781 阅读 · 0 评论 -
SCL-RAI: Span-based Contrastive Learning with Retrieval Augmented Inference for Unlabeled Entity Pr
4. 提出的方法在两个真实世界数据集上的F1得分分别比之前的最优方法提高了4.21%和8.64%。问题:在命名实体识别(NER)中,未标记的实体问题如何影响NER性能?原创 2024-05-05 19:06:27 · 172 阅读 · 0 评论 -
《DiffusionNER: Boundary Diffusion for Named Entity Recognition》
mith”或“Ne…然后,模型会尝试通过学习的逆扩散过程去除这些噪声,以尽可能准确地恢复原始的实体边界,即“John Smith”和“New York”。这个过程可以类比为在文本中“扩散”实体的边界,将不清晰的边界变得更加清晰,并从中生成完整的实体。总的来说,这段文字介绍了扩散模型在自然语言理解领域的应用和相关研究,并指出了 DIFFUSIONNER 的创新之处及其在离散文本序列任务中的应用。在推断阶段,模型可以从一个先验的高斯分布中抽样一些噪声跨度,并利用学到的逆扩散过程来生成完整的实体边界。原创 2024-04-26 14:35:14 · 1111 阅读 · 1 评论 -
python--my-split()按照切分符号切分,并且保留切分符号
【代码】python--my-split()按照切分符号切分,并且保留切分符号。原创 2024-02-26 10:24:28 · 325 阅读 · 1 评论 -
hugging face tansformer实战篇-阅读理解任务
【代码】hugging face tansformer实战篇-阅读理解任务。原创 2023-10-16 11:35:28 · 157 阅读 · 0 评论 -
bert----学习笔记
一个简单基础模板:bert导入,分词,编码。原创 2023-10-09 22:25:24 · 320 阅读 · 0 评论 -
论文阅读---REALISE model
Tokenizer是一种文本处理工具,用于将文本分解成单个单词(称为tokens)或其他类型的单位,例如标点符号和数字。常用的tokenizer包括基于规则的tokenizer和基于机器学习的tokenizer,其中基于机器学习的tokenizer可以自动识别单词和短语的边界,并将其分解为单个tokens。GRU和LSTM在很多情况下实际表现上相差无几,那么为什么我们要使用新人GRU(2014年提出)而不是相对经受了更多考验的LSTM(1997提出)呢。原创 2023-08-29 16:43:14 · 1419 阅读 · 0 评论 -
分类模型综合练习
利用sklearn自己构建一组含有1000个样本点,6个特征,3个类别的分类数据集(随机种子取666),并利用学过的分类器模型(例如传统的分类模型:决策树、朴素贝叶斯、K近邻、BP神经网络、逻辑回归、支持向量机等,以及集成学习模型:Voting、Bagging、随机森林、AdaBoost、GBDT)对数据进行训练,充分利用交叉验证及网格搜索调优,尽可能地提高模型的分类效果。模型分类效果请通过混淆矩阵、ROC曲线、学习曲线、验证曲线等方式进行展示。'''sklearn.datasets.make_cla原创 2021-12-29 11:43:01 · 438 阅读 · 0 评论 -
机器学习实践-2021-05-26-----GBDT
# 导入模块from sklearn.ensemble import GradientBoostingClassifierfrom sklearn.ensemble import GradientBoostingRegressorfrom sklearn.datasets import load_irisiris=load_iris()gbc=GradientBoostingClassifier()gbc.fit(iris.data,iris.target)gbc.predict(iri原创 2021-12-29 11:40:21 · 224 阅读 · 0 评论 -
集成算法--sklearn
集成算法投票法1.少数服从多数2.多模型一致(硬投票)3.更高把握(置信度)原则,以最高执行度的模型预测结果为准4.把握程度汇总进行投票(软投票)基于多个优化模型的投票分类器from sklearn.ensemble import VotingClassifier # 导入投票分类器from sklearn.datasets import load_iris # 导入训练数据集iris=load_iris()构建若干基础模型# 构建若干基础模型from sklearn.linea原创 2021-12-29 11:40:03 · 331 阅读 · 0 评论 -
pandas数据处理--结合r
import numpy as npimport pandas as pdpandas数据整理flights = pd.read_csv('flights.csv',index_col=0)# filter# filter(flights, month == 1, day == 1)flights.loc[(flights['month']==1) & (flights['day']==1)]筛选行# nov_dec <- filter(flights, month %i原创 2021-12-28 19:32:06 · 194 阅读 · 0 评论 -
python--可视化
%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltmatplotlib绘图N = 5menMeans = (20, 35, 30, 35, 27)womenMeans = (25, 32, 34, 20, 25)menStd = (2, 3, 4, 1, 2)womenStd = (3, 5, 2, 3, 3)ind = np.arange(N) # the x locations for the原创 2021-12-28 19:24:14 · 506 阅读 · 0 评论 -
自然语言处理--入门
入门自然语言处理应用场景:语音助手机器翻译搜索引擎智能问答(AI客服)推荐系统文本预处理主要环节:文本处理的基本方法词向量表示方法文本语料的数据分析文本特征处理数据增强方法文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标流行的中英文分词工具hanlp:中英文NLP处理工具包, 基于tensorflow2.0, 使用在学原创 2021-12-13 11:08:48 · 172 阅读 · 0 评论 -
疫情数据情感分类,仿照推特文本生成,利用transformer进行摘要
一、疫情数据情感分类数据来源https://www.kaggle.com/datatattle/covid-19-nlp-text-classification1.读取数据import pandas as pdtrain = pd.read_csv('Corona_NLP_train.cs')train.isnull().sum()import seaborn as snsimport matplotlib.pyplot as plta=train['Sentiment'].value_原创 2021-12-11 20:28:31 · 809 阅读 · 0 评论 -
Data transformation R语言与python
https://r4ds.had.co.nz/transform.html这些R也可以通过python实现pip install nycflights13pip install dfplyfrom dfply import *import numpy as npimport pandas as pdfrom nycflights13 import flightsfrom nycflights13 import airportsfrom nycflights13 import airli原创 2021-12-06 10:01:21 · 334 阅读 · 0 评论 -
LSTM----IMDB影评数据集
IMDB影评数据集中含有来自IMDB的25,000条影评,被标记为正面/负面两种评价。embedding层输出500*32的矩阵,每个评论有500个单词,每个单词用32维的向量表示lstm的输出是32维的向量,是最后一个状态向量ht编译模型,拟合模型,测试...原创 2021-12-06 08:19:42 · 228 阅读 · 0 评论 -
基于微调BERT模型的新闻分类
%reload_ext autoreload%autoreload 2%matplotlib inlineimport os# os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID";# os.environ["CUDA_VISIBLE_DEVICES"]="0"; 采用ktrain库进行文本分类目前ktrain工具箱已经集成transformers库,可以调用transformers库中的方法和函数加载数据从sklearn库中导入fetch_20n原创 2021-11-22 08:23:33 · 585 阅读 · 0 评论 -
BART 文本摘要示例
采用BART进行文本摘要首先从transformers library导入BartTokenizer进行分词, 以及BartForConditionalGeneration进行文本摘要from transformers import BartTokenizer, BartForConditionalGeneration 这里,bart-large-cnn 是预训练的BART模型,模型大小约为1.6G(下载时间可能较慢,需耐心等待进度条).model = BartForConditionalGene原创 2021-11-22 08:16:06 · 3079 阅读 · 0 评论 -
Transformers实际应用案例
首先安装transformers>pip install transformersfrom transformers import pipelineAPI例子1–情感分类首先需要下载并缓存预训练模型classifier = pipeline('sentiment-analysis')尝试输入一段文本,预训练模型会给出相应的情感类别,和相应的置信度分数classifier('这部电影真的很垃圾,浪费我的时间!!!')classifier('this movie is rea原创 2021-11-01 08:23:16 · 317 阅读 · 0 评论 -
自然语言处理--模仿莎士比亚风格自动生成诗歌
导入需要的工具包诗词句子很短,每个of等词都有意义,不需要过滤词汇,所以预处理过程比较简短。import tensorflow as tffrom tensorflow.keras.preprocessing.text import Tokenizerfrom tensorflow.keras.preprocessing.sequence import pad_sequencesfrom tensorflow.keras.layers import Embedding, LSTM, Dense,原创 2021-10-11 08:54:51 · 813 阅读 · 0 评论 -
路透社新闻分类--自然语言处理
路透社新闻分类数据准备和载入查看文件基本信息创建网络模型训练网络模型词向量预训练与模型优化embedding_matrix = pd.read_csv('embedding_matrix.csv')embedding_matriximport numpy as npimport pandas as pdfrom tkinter import _flattenimport tensorflow as tfembedding_matrix = pd.read_csv('embe原创 2021-09-27 10:13:08 · 440 阅读 · 0 评论 -
基于LSTM的IMDB电影评论情感分析
基于LSTM的IMDB电影评论情感分析步骤 加载数据 (50K IMDB Movie Review) 数据清洗 编码“情感” 数据集划分(训练集和测试集) 对评论进行分词和截断/补零操作 构建神经网络模型 训练模型并测试导入相关工具箱import pandas as pd # to load datasetimport numpy as np # for mathematic equationimport nltkfr原创 2021-09-27 10:09:38 · 2918 阅读 · 0 评论 -
安装r教程
安装r之后,发现c盘爆了,所以用了一下午研究了一下重装系统,真的挺简单的哟,教程如下:https://www.bilibili.com/video/BV1jL4y1h71g?spm_id_from=333.1007.top_right_bar_window_history.content.click安装r:https://blog.csdn.net/qq_35180983/article/details/82226373在jupyter中安装r内核:https://zhuanlan.zhihu.co原创 2021-09-05 00:43:47 · 82 阅读 · 0 评论 -
标准化,中心化,归一化
https://blog.csdn.net/shwan_ma/article/details/80154888https://www.jianshu.com/p/95a8f035c86c什么时候对数据中心化呢在聚类过程中,标准化显得尤为重要。这是因为聚类操作依赖于对类间距离和类内聚类之间的衡量。如果一个变量的衡量标准高于其他变量,那么我们使用的任何衡量标准都将受到该变量的过度影响。在PCA降维操作之前。在主成分PCA分析之前,对变量进行标准化至关重要。 这是因为PCA给那些方差较高的变量比那些方差非原创 2021-06-19 11:07:00 · 251 阅读 · 0 评论 -
机器学习实践--pipeline管道
#导入from sklearn.pipeline import Pipeline#导入“流水线”各个模块(标准化,降维,分类)from sklearn.preprocessing import StandardScalerfrom sklearn.decomposition import PCAfrom sklearn.svm import SVC# 定义流水线模型pl_svm=Pipeline([('scaler',StandardScaler()),('pca',PCA()),('s原创 2021-06-16 11:46:46 · 583 阅读 · 0 评论 -
sklearn实现pca
导入from sklearn.decomposition import PCAn_components希望保留的主成分数量,如果为none,则所有主成分均被保留,为mle时自动选择组价数量whiten白化,即对数据进行归一化,让期望为0,方差为1。whiten=false即标准化改转变会损失部分方差信息,但有时候会是的后续的建模效果有所改进白化就是对降维后的数据的每个特征进行归一化from sklearn.datasets import load_winewine=load_wine()x原创 2021-06-16 10:49:16 · 1482 阅读 · 0 评论 -
集成学习--sklearn
集成算法投票法1.少数服从多数2.多模型一致(硬投票)3.更高把握(置信度)原则,以最高执行度的模型预测结果为准4.把握程度汇总进行投票(软投票)基于多个优化模型的投票分类器sklearn.ensemble.VotingClassifierfrom sklearn.ensemble import VotingClassifier # 导入投票分类器from sklearn.datasets import load_iris # 导入训练数据集iris=load_iris()构建若原创 2021-05-27 01:09:25 · 279 阅读 · 0 评论 -
集成算法bagging、随机森林、AdaBoostClassifier
分类BaggingClassifierfrom sklearn.datasets import load_irisfrom sklearn.ensemble import BaggingClassifier#,max_features=0.5iris=load_iris()bagging=BaggingClassifier(n_estimators=20,max_samples=0.5,oob_score=True)bagging.fit(iris.data,iris.target)# 每原创 2021-05-19 13:37:09 · 364 阅读 · 0 评论 -
学习曲线sklearn.model_selection.learning_curve()
学习曲线学习曲线用来选数据量验证曲线用来选择超参数学习曲线用于评估多大的样本量用于训练才能达到最佳效果sklearn.model_selection.learning_curve()from sklearn.model_selection import learning_curve# 导入学习曲线# 设置训练集大小size=np.linspace(0.1,1,10)train_sizes,train_scores,test_scores=learning_curve(Ridge(),x原创 2021-05-12 10:52:39 · 583 阅读 · 0 评论 -
学习曲线、验证曲线
学习曲线用来选数据量验证曲线用来选择超参数原创 2021-05-12 10:47:25 · 317 阅读 · 0 评论 -
验证曲线函数validation_curve
validation_curve验证曲线函数from sklearn.model_selection import validation_curve#导入验证曲线函数from sklearn.datasets import load_bostonfrom sklearn.linear_model import Ridge#导入sklearn的岭回归模块boston=load_boston()将原始数据打乱为随机顺序# 将原始数据打乱为随机顺序import numpy as npnp.ra原创 2021-05-12 10:37:57 · 1023 阅读 · 0 评论 -
分类模型评估指标
导入数据from sklearn.datasets import load_irisiris=load_iris()拆分数据from sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=666)构建决策树模型from sklearn.tree原创 2021-04-21 11:50:54 · 437 阅读 · 1 评论 -
logistic回归+糖尿病数据集
from sklearn.datasets import make_blobsx,y=make_blobs(n_samples=200,n_features=2,centers=2,random_state=8)#可视化import matplotlib.pyplot as plt%matplotlib inlineplt.scatter(x[:,0],x[:,1],c=y,cmap=plt.cm.spring,edgecolors='k')梯度下降法实现逻辑回归# 添加全1列impo原创 2021-04-14 11:49:59 · 1911 阅读 · 0 评论 -
Python汽车用户消费投诉数据爬取
http://tousu.315che.com/tousulist/serial/7805/0/0/0/8.htmfrom selenium import webdriverimport requestsfrom lxml import etreeimport osif not os.path.exists('./汽车用户消费投诉数据'): os.mkdir('./汽车用户消费投诉数据')#driver=webdriver.Firefox()#driver.get('http://t原创 2021-04-10 01:22:15 · 358 阅读 · 0 评论 -
回归预测鲍鱼年龄案例
了解鲍鱼数据https://archive.ics.uci.edu/ml/datasets/Abaloneimport pandas as pdabalone=pd.read_csv("abalone_dataset.csv")abalone.head()原创 2021-04-08 01:57:14 · 4361 阅读 · 3 评论 -
用“梯度下降法”拟合波士顿房价问题的线性回归系数,编写Python代码实现
from sklearn.datasets import load_bostonboston=load_boston()x=boston.datay=boston.targetfrom sklearn.model_selection import train_test_splitx_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3)from sklearn.preprocessing import StandardSca原创 2021-04-05 15:12:18 · 373 阅读 · 0 评论 -
lasso回归可以帮助特征选择
lasso回归可以帮助特征选择原创 2021-03-31 11:07:11 · 335 阅读 · 0 评论 -
线性回归linear_model.LinearRegression
线性回归–监督学习linear_model.LinearRegression超参数fit_intercept–是否计算截距,默认计算normalize–是否标准化,默认不做copy_x–是否对x肤质,如果为false,则经过中心化,标准化后,吧新数据覆盖到原数据上n_job–计算时设置的任务个数属性:coef_:得到的feature的系数intercept——截距,线性模型中的独立项rank_:矩阵的秩singular_ :矩阵的奇异值,尽在x为密集矩阵时有效方法fitpredi原创 2021-03-31 10:36:51 · 5146 阅读 · 1 评论 -
plt 显示中文和正负号
plt.rcParams[‘font.sans-serif’]=[‘SimHei’,‘Times New Roman’]plt.rcParams[‘axes.unicode_minus’]=False原创 2021-03-25 23:30:14 · 908 阅读 · 0 评论 -
numpy画图
利用Python绘制直线:y=0.5x+2利用Python绘制通过两点(2, 3)和(6,5)的直线方程求通过平面上两点(2, 3)和(6,5)的直线的斜率原创 2021-03-25 22:42:17 · 204 阅读 · 0 评论