![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 59
houjibofa2050
读源码,要有技术深度,做一个把一招练一万遍的程序员。
展开
-
python ocr 图片中提取文字
pytesseract 提取图片中的中文代码:#-*- coding:utf-8 -*-import pytesseractfrom PIL import Image# 使用pytesseract对英文进行识别,lang参数可省略# print(pytesseract.image_to_string(Image.open('textEng.png',lang='eng')))...原创 2019-09-06 13:39:31 · 705 阅读 · 0 评论 -
深入理解XGBoost
1.什么是XGBoost?XGBoost是一种基于boosting的提升树模型,是一个k个模型的加法模型,与GDBT的区别在于目标函数的不同,目标函数如下:加法模型如下目标函数如下:目标函数左侧是损失函数,右边是正则项。正则项如下:正则项如下:T是叶子节点的个数,第j个叶子节点的权重,2.XGBoost与GDBT的区别?1.正则项 不同,GBDT 目标函数没有正则项,XGboost有正则项2.导数信息不同 GBDT 在优化模型的参数时使用了一阶导数,...原创 2022-04-16 11:14:52 · 1572 阅读 · 0 评论 -
推荐算法在深度学习中的模型
目录1.Deep Crossing模型 1.1 什么是deep crossing模型2.wide & deep模型 google Google Play 团队提出2.1 什么是wide & deep模型2.2 具体案例模型图3.NeuralCF模型3.1 什么是Neural CF模型3.2 矩阵分解模型4.双塔模型4.2 什么是双塔模型4.2 双塔模型在工业界的落地5.deepFM模型5.1 什么是Deep FM模型5.2...原创 2021-08-11 01:16:23 · 1417 阅读 · 1 评论 -
机器学习融合模型stacking自己理解
目录1.什么是stacking?2.stacking案例3.参考文献1.什么是stacking?stacking是一种分层模型集成框架 学习器分为两层,每一层使用不同的学习器,第二层依赖第一层数据,第一层的输出是第二层的输入。 第一层 由多个基学习器组成,输入数据集是原始数据集,输出数据集是n*m (n是训练集样本个数,m是(基学习器个数+1)),测试集经过第一层基分类器的转换(p*m p是测试样本个数,m是(基学习器个数+1)))...原创 2021-07-12 22:39:25 · 393 阅读 · 0 评论 -
自动问答系统-核心(相似度计算)
"""基于gensim模块的中文句子相似度计算思路如下:1.文本预处理:中文分词,去除停用词2.计算词频3.创建字典(单词与编号之间的映射)4.将待比较的文档转换为向量(词袋表示方法)5.建立语料库6.初始化模型7.创建索引8.相似度计算并返回相似度最大的文本"""from gensim import corpora, models, similaritiesimport loggingfrom collections import defaultdictimport .原创 2021-07-09 11:57:33 · 854 阅读 · 0 评论 -
聚类算法
参考:https://www.cnblogs.com/data-miner/p/6227789.htmlhttps://baijiahao.baidu.com/s?id=1625408992304959354&wfr=spider&for=pc原创 2019-11-24 18:32:42 · 449 阅读 · 0 评论 -
手势识别模型
1.方案整理方案1:服务端做手势识别方案流程:服务端做手势识别和图片的预处理,客户端做手势检测,拿到手势图片,调用服务端的http接口,获得手势的识别结果优点:服务端做手势识别,交互简单,有更好的风险控制,方便模型升级。缺点:客户端调用服务端的手势接口,因为有网络传输,可能会有手势识别延迟的问题。网络延迟80ms平均消耗时长:0.045927691459655764 没有cdn 图像下载时间流程图如下:方案2:客户端做手势识别方案流程:服务端做模型训练,客户端...原创 2021-03-31 17:00:07 · 755 阅读 · 0 评论 -
自己实现one-hot 编码
自己实现one-hot 编码# 获得指定数据的one-hot 编码def get_one_hot(key,item_dict): item_list = [0] * len(item_dict) index = item_dict[key] item_list[index] = 1 return item_listif __name__ == '__main__': sex_dict = {"man": 0, "woman": 1} print(g.原创 2020-11-26 21:45:25 · 348 阅读 · 0 评论 -
自己手写BM25算法
python 实现 BM25 算法#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/7/30 20:50# @Author : fuGuoWen# @Site : # @File : test06.py# @Software: PyCharmimport mathclass BM25(object): def __init__(self, docs): """原创 2020-07-31 20:30:48 · 345 阅读 · 0 评论 -
自己手写TF-IDF算法
python 实现tf-idf#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/7/30 20:38# @Author : fuGuoWen# @Site : # @File : test05.py# @Software: PyCharmimport mathfrom collections import Countercorpus = [ 'hello world hello ',.原创 2020-07-31 20:28:56 · 484 阅读 · 0 评论 -
音视频情绪识别
参考:1.https://github.com/x4nth055/emotion-recognition-using-speech原创 2020-07-22 13:26:13 · 2252 阅读 · 0 评论 -
tensorflow2.0 MNIST数据集分类任务
MNIST数据集分类任务TensorFlow 2.0测试版包代码from __future__ import absolute_import, division, print_function, unicode_literals# 安装 TensorFlowimport tensorflow as tf# 对mnist数据进行分类任务if __name__ == ...原创 2019-11-30 22:50:04 · 546 阅读 · 0 评论 -
tensorflow 批量读取多个csv文件
tensorflow 批量读取多个csv文件#!/usr/bin/python# -*- coding:utf-8 -*-import tensorflow as tfimport osdef csvfile(fileist): file_queue=tf.train.string_input_producer(filelist) reader=tf.TextLin...原创 2018-12-23 16:55:07 · 1642 阅读 · 1 评论 -
tensorflow 自己手动实现的线性回归
tensorflow 自己手动实现的线性回归#!/usr/bin/python# -*- coding:utf-8 -*-import tensorflow as tfimport os# 第二个参数是默认值tf.app.flags.DEFINE_integer("max_iter", 100, "迭代次数")tf.app.flags.DEFINE_string("model...原创 2018-12-23 09:55:35 · 278 阅读 · 0 评论 -
tensorflow tensorboard显示问题
1.切到需要展示的目录2.tensorboard --logdir=test原创 2018-12-23 09:00:53 · 365 阅读 · 0 评论 -
tensorflow 计算线性函数
tensorflow 计算线性函数# -*- coding:utf-8 -*-import tensorflow as tfimport numpy as npif __name__ == '__main__': print "hello" matrix1 = tf.constant([[3., 3.]]) matrix2 = tf.constant([[2.]...原创 2018-12-12 10:48:53 · 380 阅读 · 0 评论 -
tensorflow hello world
temsorflow 使用图(Graph)来表示计算任务并开始使用会话(Session)来执行图。# -*- coding:utf-8 -*-import tensorflow as tfimport numpy as npimport warningswarnings.filterwarnings("ignore")if __name__ == '__main__': ...原创 2018-12-12 10:44:13 · 141 阅读 · 1 评论 -
花卉识别
代码:#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/3/7 15:40# @Author : Shark# @Site : # @File : flower_image_test.py# @Software: PyCharmfrom __future__ import absolute_...原创 2020-03-08 16:58:31 · 2168 阅读 · 0 评论 -
python 中文问答系统
https://blog.csdn.net/qq_30189255/article/details/81910831原创 2019-05-26 22:13:53 · 4595 阅读 · 0 评论 -
相似文本topN你计算 python
#!/usr/bin/Python# -*- coding: utf-8 -*-'''1.读取文档2.对要计算的多篇文档进行分词3.对文档进行整理成指定格式,方便后续进行计算4.计算出词语的词频5.【可选】对词频低的词语进行过滤6.建立语料库词典7.加载要对比的文档8.将要对比的文档通过doc2bow转化为词袋模型9.对词袋模型进行进一步处理,得到新语料库10.将新语料库...原创 2018-11-29 11:15:35 · 392 阅读 · 0 评论 -
kaggle 泰坦尼克预测 案例
kaggle 泰坦尼克预测准确率79%。#!/usr/bin/Python# -*- coding: utf-8 -*-# This Python 3 environment comes with many helpful analytics libraries installed# It is defined by the kaggle/python docker image: ht...原创 2018-11-27 21:12:35 · 320 阅读 · 0 评论 -
xgboost 入门
1.安装xgboost pip3 install xgboost2.xgboost demoagaricus.txt.train agaricus.txt.test 蘑菇数据集---二分类问题数据详细的解释地址 https://archive.ics.uci.edu/ml/datasets/Mushroom每一行数据有22个 属性# coding:utf-8im...原创 2018-11-27 12:40:15 · 451 阅读 · 1 评论 -
rake_nltk实现快速提取关键词
使用rake_nllk对句子提取关键词参考文献:https://php.ctolib.com/rake-nltk.htmlhttps://blog.csdn.net/neruda1991/article/details/78745974https://towardsdatascience.com/how-to-build-from-scratch-a-content-based-m...原创 2018-11-19 20:34:29 · 5436 阅读 · 0 评论 -
使用自然语言处理构建基于内容的推荐系统
数据下载地址:https://query.data.world/s/uikepcpffyo2nhig52xxeevdialfl7 1.提取数据---电影标题,电影类型,电影导演,电影演员,电影剧情 2.清洗数据--- 电影剧情使用rake_nltk去除停定词,对关键词排序。 电影导演,电影演员去除空格,把姓和名作为一个单词 3.把所有的关键词拼接成bag_of_wo...原创 2018-11-19 20:24:53 · 878 阅读 · 0 评论 -
RNN与LSTM
RNN 循环神经网络 LSTM 神经网络--RNN的升级版原创 2018-12-29 10:41:44 · 243 阅读 · 0 评论 -
正排索引和倒排索引的区别
1.正排索引: 由文档指向关键词文档--> 单词1 ,单词2单词1 出现的次数 单词出现的位置; 单词2 单词2出现的位置 ...2.倒排索引: 由关键词指向文档单词1--->文档1,文档2,文档3单词2--->文档1,文档2...原创 2018-12-26 16:25:46 · 7715 阅读 · 0 评论 -
深度学习中的正则化
1.什么是正则化 正则化是机器学习中减少泛化误差的技术,特别是在深度学习模型中,由于模型参数非常多非常容易产生过拟合。常见的正则化技术: 1.参数增加约束 例如 l1,l2 范数。 2.训练集合扩充 例如 添加草绳,数据变化等。 3.dropout 4.提前停止...原创 2020-03-07 16:45:39 · 375 阅读 · 0 评论 -
svm 为什么使用核函数
svm 为什么使用核函数解决在低维空间线性不可分的问题,通过核函数把低维映射到高维,实现线性可分。常见核函数有线性核函数,多项式核函数,高斯核函数,sigmoid 核函数...原创 2018-12-25 11:16:25 · 2228 阅读 · 0 评论 -
线性回归和逻辑(logistic)回归
线性回归是解决回归问题。 结果是连续型,主要解决房租预测等问题。逻辑回归是分类问题,不是回归问题,结果是离散型,主要解决二分类问题。原创 2018-12-25 11:25:04 · 7550 阅读 · 0 评论 -
ARIMA算法
平稳性:要求序列的均值和方差不发生改变。严平稳和宽平稳严平稳:分布不随时间发生改变宽平稳:期望和相关系数不变,未来的某一时刻的值依赖于它过去的信息。差分法:时间序列在t和t-1时刻的差值自回归模型(AR):描述当前值与历史值的关系,使用历史数据对当前值进行预测。要求: 模型必须具有平稳性,自相关性,相关系数>0.5移动平均模型(MA)是误差项的累加,移动平均法能够...原创 2018-12-16 21:19:42 · 2150 阅读 · 0 评论 -
机器学习分类
机器学习分为监督学习和无监督学习.监督学习又分为分类和回归如果结果是连续型的,就是回归.如果结果是离散型的,就是分类.非监督学习:聚类.监督学习和非监督学习的区别:监督学习:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果.非监督学习:输入数据没有被标记,也没有确定的结果。典型的就是聚类算法....原创 2019-04-17 14:03:46 · 199 阅读 · 0 评论 -
机器学习面试
https://github.com/DarLiner/Algorithm_Interview_Notes-Chinese原创 2019-04-17 15:56:40 · 102 阅读 · 0 评论 -
CountVectorizer TfidfVectorizer 中文处理
https://blog.csdn.net/shuihupo/article/details/80930801原创 2019-09-08 19:34:44 · 679 阅读 · 0 评论 -
python 计算两个文本的相似性
tfidf模型与lsi模型参考:https://www.jianshu.com/p/edf666d3995f原创 2019-09-09 10:41:16 · 2258 阅读 · 0 评论 -
决策树
参考:https://blog.csdn.net/wangxingfan316/article/details/82115452原创 2019-09-10 10:42:58 · 174 阅读 · 0 评论 -
使用logistic 回归解决良性、恶性肿瘤的二分类问题
准确率:0.9371428571428572#!/usr/bin/python# -*- coding:utf-8 -*-import pandas as pddf_train = pd.read_csv('../Datasets/Breast-Cancer/breast-cancer-train.csv')df_test = pd.read_csv('../Datasets/...原创 2019-02-28 21:03:38 · 741 阅读 · 0 评论 -
特征抽取---countVectorizer
特征抽取---countVectorizer#!/usr/bin/python# -*- coding:utf-8 -*-from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizerfrom sklearn.feature_extraction import DictVectorizerdef...原创 2018-12-30 17:37:48 · 693 阅读 · 0 评论 -
模型的选择与调优
1.交叉验证 2.参数搜索交叉验证的目的:为了让模型的评估更加可靠。首先将数据拆分成训练集和测试集,对训练集拆分成5份,循环5次,每次把其中的4份作为训练集,另外1份作为验证集。 参数搜索--网格搜索sklearn.model_select.GridSearch...原创 2018-12-28 10:29:57 · 201 阅读 · 0 评论 -
机器学习调优
网格搜索: 遍历所有的超参数。原创 2018-12-28 10:15:18 · 179 阅读 · 0 评论 -
使用logistic regression 处理 良/恶性肿瘤分类任务 案例
1.读入数据2.随机切分数据集,把数据集切分成训练集和测试集3.对数据集进行标准化4.创建logistic regression 模型,在训练集上训练数据5.在测试集上进行预测分类logistic regression 预测的准确率:0.9883040935672515# -*- coding:utf-8 -*-import pandas as pdimport nu...原创 2018-12-11 16:20:52 · 892 阅读 · 0 评论