机器学习
机器学习
不学无术-倪
这个作者很懒,什么都没留下…
展开
-
NLP文本聚类
import pandas as pdfrom collections import Counterfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom sklearn.cluster import KMeansimport reimport stringimport jieba# 分词def tokenize_text(text): tokens = jieba.cut原创 2022-03-15 07:51:46 · 1841 阅读 · 0 评论 -
NLP关键词提取
keywordExtract.py# -*- coding: utf-8 -*-import mathimport jiebaimport jieba.posseg as psgfrom gensim import corpora, modelsfrom jieba import analyseimport functools# 停用词表加载方法def get_stopword_list(): # 停用词表存储路径,每一行为一个词,按行读取进行加载 # 进行编码转换原创 2022-03-15 07:14:02 · 464 阅读 · 0 评论 -
NLP命名体识别bilstm+crf
"""NLP命名体识别bilstm+crf1、准备数据:origin_handle_entities()读取源数据文件,把人名,地名,机构名合并起来2、读取处理后的数据:origin_handle_mark()把预处理后的的文本标注成BMO的格式,B(begin)、M(middle)、E(end)、O(other)3、句子切分:sentence_split()按照指定的格式,比如标点等内容对数据完成切分4、保存数据 a.将标注的句子拆分自成列表和对应的标注序列 b.创建原创 2022-03-14 23:46:04 · 559 阅读 · 0 评论 -
bayes中文文本分类(NLP版)
“”"bayes中文文本分类(NLP版)1、准备数据读取数据内容,标签2、中文的分词:中文信息处理时所需的步骤(Jieba、Jiagu、pkuseg)3、文本向量化:将读取后的数据转换成文本的向量(数字)TFIDF词袋模型4、模型的训练和保存:sklearn的工具包实现,joblib5、模型的加载使用:joblib“”"import osimport jiebafrom sklearn.feature_extraction.text import TfidfVectorizer原创 2022-03-14 09:34:20 · 2190 阅读 · 0 评论 -
NLP文本分布式表示
文章目录基于矩阵的方法基于神经网络的方法基于矩阵的方法用一个词附近的其他词来表示该词共现矩阵(Cocurrence matrix)主要用于发现主题,解决词向量相近关系的表示;将共现矩阵行(列)作为词向量例如:语料库如下:• I like deep learning.• I like NLP.• I enjoy flying.则共现矩阵表示如下:(使用对称的窗函数(左右window length都为1) )例如:“I like”出现在第1,2句话中,一共出现2次,所以=2。对称的原创 2022-03-12 23:07:30 · 475 阅读 · 0 评论 -
结巴分词:全模式、精确模式和搜索引擎模式
文章目录全模式精确模式搜索引擎模式jieba.lcut(sentence):返回的是一个列表jieba.cut(sentence, cut_all=False):返回的是一个迭代器,cut_all默认为False(精确模式),True(全模式)jieba.cut_for_search(sentence):返回一个迭代器jieba.lcut_for_search(sentence):返回一个集合全模式seg_list = jieba.cut("我来到北北京清华大学",cut_all=True原创 2022-03-12 16:40:30 · 2249 阅读 · 0 评论 -
朴素贝叶斯算法案例
“”"朴素贝叶斯算法案例“”"import numpy as np#准备数据def loadDataSets():“”"加载数据集:return: dataMatrix,labelList“”"dataMatrix = [[“stop”, “fuck”, “you”, “bitch”, “garbage”],[“useless”, “dog”, “stupid”, “worthless”],[“suck”, “my”, “dick”, “bitch”, “pig”, “asshol原创 2022-03-12 14:58:09 · 2719 阅读 · 0 评论 -
中文分词-jieba
中文分词案例自定义词典原创 2022-01-06 19:01:16 · 312 阅读 · 0 评论 -
聚类-kmeans-DBSCAN-AgglomerativeClustering
聚类K-meansimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('../data_test/multiple3.txt', header=None, names=['x1','x2'])data.plot.scatter(x='x1',y='x2',s=50)<matplotlib原创 2022-01-07 21:27:18 · 442 阅读 · 0 评论 -
bayes-文本情感分析-酒店评论情感分析
酒店评论情感分析数据集位于链接:提取码: 8w6pimport pandas as pdimport jieba#加载文件data = pd.read_csv('../data_test/htl_all.csv')data['label'].value_counts()data = data.tail((data['label'] == 0).sum() * 2)data['label'].value_counts()1 24430 2443Name: lab原创 2022-01-07 20:41:13 · 915 阅读 · 0 评论 -
文本分类_舆情分析
文章目录舆情分析文本分词文本向量化处理词袋模型词频(TF)文档频率(DF)逆文档频率(IDF)词频-逆文档频率(TF-IDF)文本分类(主题识别)舆情分析文本情感分析又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网产生了大量的诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。酒店评论原创 2021-12-30 19:44:14 · 1200 阅读 · 0 评论 -
iris_逻辑回归二元分类_决策树
import matplotlib.pyplot as pltimport sklearn.datasets as sdimport pandas as pdiris = sd.load_iris()print(iris.keys())##整理数据为dfdata = pd.DataFrame(iris.data,columns=iris.feature_names)datairis.targetdata['target'] = iris.target#萼片的可视化plt.s原创 2021-12-29 21:40:49 · 459 阅读 · 0 评论 -
09_keras_Tuner使用keras Tuner调整超参数(超参数优化)
"""09_keras_Tuner使用keras Tuner调整超参数"""import tensorflow as tffrom tensorflow import kerasimport keras_tuner as kt#加载数据集(img_train, label_train),\(img_test, label_test)\ =keras.datasets.fashion_mnist.load_data()# Normalize pixel values be原创 2021-12-25 17:18:40 · 1232 阅读 · 0 评论 -
保存和加载模型
"""保存和加载模型"""import osimport tensorflow as tffrom tensorflow import keras#获取示例数据集(train_images, train_labels), (test_images, test_labels) = tf.keras.datasets.mnist.load_data()train_labels = train_labels[:1000]test_labels = test_labels[:1000]t原创 2021-12-25 16:14:46 · 471 阅读 · 0 评论 -
防止神经网络过度拟合的最常见方法
防止神经网络过度拟合的最常见方法:1、获取更多训练数据。2、减少网络容量。3、添加权重正则化。4、添加dropout。5、数据增强6、批量标准化原创 2021-12-25 11:27:53 · 1798 阅读 · 0 评论 -
基本回归:预测燃油效率
“”"Basic regression: Predict fuel efficiency汽车燃油效率“”"import pathlibimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsimport tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layersprint(tf.version)dat原创 2021-12-25 10:14:15 · 798 阅读 · 0 评论 -
使用 Keras 和 Tensorflow Hub 对电影评论进行文本分类
""""使用 Keras 和 Tensorflow Hub 对电影评论进行文本分类"""import numpy as npimport tensorflow as tf# !pip install tensorflow-hub# !pip install tfds-nightlyimport tensorflow_hub as hubimport tensorflow_datasets as tfdsprint("Version: ", tf.__version__)print(原创 2021-12-25 10:08:33 · 117 阅读 · 0 评论 -
使用 Keras 和 Tensorflow Hub 对电影评论进行文本分类
""""使用 Keras 和 Tensorflow Hub 对电影评论进行文本分类"""import numpy as npimport tensorflow as tf# !pip install tensorflow-hub# !pip install tfds-nightlyimport tensorflow_hub as hubimport tensorflow_datasets as tfdsprint("Version: ", tf.__version__)print(原创 2021-12-25 09:11:53 · 148 阅读 · 0 评论 -
02_tensorflow_影评论文本分类
"""电影评论文本分类"""import tensorflow as tffrom tensorflow import kerasimport numpy as np# print(tf.__version__)# 加载IMDB数据集imdb = keras.datasets.imdb(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)# 探索数据print("Train原创 2021-12-25 00:02:42 · 394 阅读 · 0 评论 -
你的第一个神经网络
"""对服装图像进行分类"""# TensorFlow and tf.kerasimport tensorflow as tffrom tensorflow import keras# Helper librariesimport numpy as npimport matplotlib.pyplot as plt# print(tf.__version__)#读取数据 ##经典mmist数据集fashion_mnist = keras.datasets.fashion_mn原创 2021-12-24 22:41:32 · 205 阅读 · 0 评论 -
决策树_实战_波士顿房价
import numpy as npimport sklearn.datasets as sdimport pandas as pdimport matplotlib.pyplot as pltboston = sd.load_boston()boston.keys()boston.filenameprint(boston.DESCR)print(boston.feature_names)print(boston.data.shape)#xboston.target.shap原创 2021-12-24 20:10:20 · 487 阅读 · 0 评论 -
sklearn_岭回归_Lasso回归
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('../data_test/Salary_Data2.csv')x = data['YearsExperience']y = data['Salary']plt.scatter(x,y,s=50,color='dodgerblue')#线性回归import sklearn.linear_model as lm原创 2021-12-22 22:31:39 · 838 阅读 · 0 评论 -
sklearn_多项式回归
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('../data_test/Salary_Data.csv')x = data['YearsExperience']y = data['Salary']train_x = pd.DataFrame(x)train_y = yimport sklearn.pipeline as pl #数据管线import sk原创 2021-12-22 22:28:17 · 494 阅读 · 0 评论 -
sklearn_线性回归
#使用sklearn提供的接口实现线性回归import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 加载数据集data = pd.read_csv('../data_test/Salary_Data.csv')x = data['YearsExperience']y = data['Salary']#整理数据train_x = pd.DataFrame(x)train_y = yplt.scatt原创 2021-12-22 20:17:13 · 503 阅读 · 0 评论 -
09_聚类
一、聚类问题1. 概述聚类(cluster)与分类(class)问题不同,聚类是属于无监督学习模型,而分类属于有监督学习。聚类使用一些算法把样本分为N个群落,群落内部相似度较高,群落之间相似度较低。在机器学习中,通常采用“距离”来度量样本间的相似度,距离越小,相似度越高;距离越大,相似度越低.1)相似度度量方式① 欧氏距离相似度使用欧氏距离来进行度量. 坐标轴上两点x1,x2x_1, x_2x1,x2之间的欧式距离可以表示为:∣x1−x2∣=(x1−x2)2|x_1-x_2| = \sqr原创 2021-12-16 21:33:29 · 526 阅读 · 0 评论 -
08_模型评估与优化
一、模型评估与优化1. 模型评估1)性能度量① 错误率与精度错误率和精度是分类问题中常用的性能度量指标,既适用于二分类任务,也适用于多分类任务.错误率(error rate):指分类错误的样本占样本总数的比例,即 ( 分类错误的数量 / 样本总数数量)精度(accuracy):指分类正确的样本占样本总数的比例,即 (分类正确的数量 / 样本总数数量)精度=1−错误率精度 = 1 - 错误率精度=1−错误率② 查准率、召回率与F1得分错误率和精度虽然常用,但并不能满足所有的任务需原创 2021-12-16 21:32:46 · 630 阅读 · 0 评论 -
分类_朴素贝叶斯
一、朴素贝叶斯朴素贝叶斯是一组功能强大且易于训练的分类器,它使用贝叶斯定理来确定给定一组条件的结果的概率,“朴素”的含义是指所给定的条件都能独立存在和发生. 朴素贝叶斯是多用途分类器,能在很多不同的情景下找到它的应用,例如垃圾邮件过滤、自然语言处理等.1. 概率1)定义概率是反映随机事件出现的可能性大小. 随机事件是指在相同条件下,可能出现也可能不出现的事件. 例如:(1)抛一枚硬币,可能正面朝上,可能反面朝上,这是随机事件. 正/反面朝上的可能性称为概率;(2)掷骰子,掷出的点数为随机事件.原创 2021-12-16 21:32:02 · 723 阅读 · 1 评论 -
分类_支持向量机
一、支持向量机1. 基本概念1)什么是支持向量机支持向量机(Support Vector Machines)是一种二分类模型,在机器学习、计算机视觉、数据挖掘中广泛应用,主要用于解决数据分类问题,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化(即数据集的边缘点到分界线的距离d最大,如下图),最终转化为一个凸二次规划问题来求解。通常SVM用于二元分类问题,对于多元分类可将其分解为多个二元分类问题,再进行分类。所谓“支持向量”,就是下图中虚线穿过的边缘点。支持向量机就对应着能将数据正确划原创 2021-12-16 21:31:16 · 1382 阅读 · 0 评论 -
分类_决策树
一、决策树1. 什么是决策树决策树是一种常见的机器学习方法,其核心思想是相同(或相似)的输入产生相同(或相似)的输出,通过树状结构来进行决策,其目的是通过对样本不同属性的判断决策,将具有相同属性的样本划分到一个叶子节点下,从而实现分类或回归. 以下是几个生活中关于决策树的示例.【示例1】[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L31mORpZ-1639661392697)(img/decision_tree3.jpg)]男生看女生与女生看男生的决策树模型【示原创 2021-12-16 21:30:25 · 383 阅读 · 0 评论 -
分类_逻辑回归
一、逻辑回归1. 概述1)什么是逻辑回归逻辑回归(Logistic Regression) 虽然被称为回归,但其实际上是分类模型,常用于二分类。逻辑回归因其简单、可并行化、可解释强而受到广泛应用。二分类(也称为逻辑分类)是常见的分类方法,是将一批样本或数据划分到两个类别,例如一次考试,根据成绩可以分为及格、不及格两个类别,如下表所示:姓名成绩分类Jerry861Tom981Lily580………………这就是逻辑分类,将连续值映射到两个类别中原创 2021-12-16 21:29:38 · 1190 阅读 · 0 评论 -
决策树回归
决策树回归决策树基本算法原理核心思想:相似的输入必会产生相似的输出。例如预测某人薪资:年龄:1-青年,2-中年,3-老年学历:1-本科,2-硕士,3-博士经历:1-出道,2-一般,3-老手,4-骨灰性别:1-男性,2-女性年龄学历经历性别==>薪资1111==>6000(低)2131==>10000(中)3341==>50000(高)…………==>…1322==&原创 2021-12-16 21:28:30 · 4006 阅读 · 1 评论 -
线性模型_线性回归
一、线性模型1. 概述线性模型是自然界最简单的模型之一,它描述了一个(或多个)自变量对另一个因变量的影响是呈简单的比例、线性关系.例如:住房每平米单价为1万元,100平米住房价格为100万元,120平米住房为120万元;一台挖掘机每小时挖100m3100m^3100m3沙土,工作4小时可以挖掘400m3400m^3400m3沙土.线性模型在二维空间内表现为一条直线,在三维空间内表现为一个平面,更高维度下的线性模型很难用几何图形来表示(称为超平面).如下图所示:[外链图片转存失败,源站可能有防原创 2021-12-16 21:27:47 · 1631 阅读 · 0 评论 -
人工智能课程概述
一、人工智能课程概述1. 什么是人工智能人工智能(Artificial Intelligence)是计算机科学的一个分支学科,主要研究用计算机模拟人的思考方式和行为方式,从而在某些领域代替人进行工作.2. 人工智能的学科体系以下是人工智能学科体系图:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ygAsAjXe-1639661142595)(img/AI_structure.png)]机器学习(Machine Learning):人工智能的一个子学科,研究人工智原创 2021-12-16 21:26:02 · 2544 阅读 · 0 评论 -
机器学习-正则化技术
文章目录正则化的作用概念类型如何判断模型出现过拟合:正则化的作用防止过拟合、提高模型泛化能力。概念正则化等价于结构风险最小化正则化等价于带约束的目标函数中的约束项正则化等价于带约束的目标函数中的约束项正则项等价于引入参数的模型先验概率在误差符合均值为0的高斯分布,则最大似然估计和最小二乘法等价最大后验估计就是在最大似然估计函数上面乘上了一项先验分布而已L1 范数相当于给模型参数\theta设置一个拉普拉斯先验分布;L2范数相当于给模型参数\theta设置一个均值为0的高斯先验分布。L原创 2021-10-31 20:46:26 · 567 阅读 · 0 评论 -
没有练习机器学习的数据集?
关于数据集https://archive.ics.uci.edu/ml/index.php关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:http://www.cs.waikato.ac.nz/ml/weka/关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:http://www.cs.waikato.ac.nz/ml/weka/UCI收集的机器学习数据集f原创 2021-10-30 08:39:14 · 210 阅读 · 0 评论