Python
文章平均质量分 94
link-ai
奋斗目标:财务自由
展开
-
深度学习-*-Keras+TextCNN文本分类 基于Thucnews数据集
Thucnews数据集由于本地机器资源有限,所以仅拿出4W数据来做训练和测试我把thucnews数据存到了本地mongo数据集上如下所示(请忽略label 和lable 的字母拼写错误…)项目目录结构其中classify.py->分类主体文件classify_text.txt->测试样例,自己搜集的数据gpos-vocab->自己训练的词典库stopwords->停用词典text_util.py->对文本进行操作的工具thucnews.json->原创 2020-06-22 18:14:00 · 1285 阅读 · 1 评论 -
tensorflow-*-from tensorflow import keras 与 from tensorflow.python import keras
how to use keras in tf在版本tensorflow2.0+中有很多方式引入kerasimport tensorflow as tffrom tensorflow import keras# from tensorflow_core import keras# from tensorflow.python import keras# 使用第一种 from tensorflow import keras# 其余的两个与其还是有区别的,比如我在使用的时候model.fit时会报如原创 2020-06-19 17:02:31 · 6494 阅读 · 0 评论 -
数据结构与算法-*-暴力求解、分治法和线性方法对比(最大子数组)
对于最大子数组问题,这里写了两种方法进行求解,并给出对比图形进行对比,发现在我本机上大概数据规模在120以上,分治法开始优于暴力求解方法#!/usr/bin/python# -*- coding:utf-8 -*-"""Name : 4.1-3Describe: 最大子数组 暴力求解及分治法Author : LHDate : 2019/9/6"""import math...原创 2019-09-06 10:22:46 · 2340 阅读 · 0 评论 -
深度学习-*-TextCNN对头条文章进行分类
数据集–头条文章根据晚上搜集的数据资源-github地址:头条数据集处理该数据集的策略是 分词,抽词等,主要是通过原爬取者抽取的关键字和我从标题中抽取的关键字结合作为分类的特征词。模型参考的是网上的教程:import tensorflow as tfclass TextCNN(object): """ TextCNN model """ def __...原创 2019-03-28 14:21:16 · 580 阅读 · 1 评论 -
机器学习-*-聚类评价指标
直接上代码,参考论文《文本聚类分析效果评价及文本表示研究》#!/usr/bin/python# -*- coding:utf-8 -*-"""@Name cluster_metrics@Description 聚类评估方法@Date 2019/4/4"""import sysimport mathdef _find_dict_and_dataset(p_class =...原创 2019-04-04 15:23:40 · 679 阅读 · 0 评论 -
机器学习-*-决策树
决策树决策树的学习一般需要3个步骤来实现:特征选择决策树的生成决策树剪枝在每一点所用的方法不同,得到的决策树算法就会不同。比如:特征选择方面:ID3选择信息增益作为准则(criterion) , C4.5用信息增益率作为准则,CART用基尼系数或者MSE(最小均方损失)作为准则。决策树生成方面:ID3 C4.5 是多叉树,每个节点是一种特征属性判断,各个节点特征属性不重复。而CA...原创 2018-12-19 15:32:36 · 200 阅读 · 0 评论 -
机器学习-*-DBSCAN聚类及代码实现
DBSCANDBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)原理首先描述以下几个概念,假设我们有数据集D={x1,x2,x3,...,xn}D=\{x_1,x_2,x_3,...,x_n\}D={x1,x2,x3,...,xn},则1.ϵ\epsilonϵ邻域:对于∀...原创 2018-11-28 16:46:38 · 3571 阅读 · 0 评论 -
机器学习-*-MeanShift聚类算法及代码实现
MeanShift该算法也叫做均值漂移,在目标追踪中应用广泛。本身其实是一种基于密度的聚类算法。主要思路是:基于某一点的周围半径R内的点向量,计算出该点下一步移动的路线。当该点不再移动时,计算其与历史类簇的距离,满足阈值要求的即合并,不满足则自身形成一个类簇。本身有改进的核方法,这里不阐述了。后续会加上有时间补充概念,先上代码及实验结果:Python代码#!/usr/bin/pytho...原创 2018-11-26 17:58:17 · 2883 阅读 · 3 评论 -
机器学习-*-K均值聚类及代码实现
KMeans聚类在聚类算法中,最出名的应该就是k均值聚类(KMeans)了,几乎所有的数据挖掘/机器学习书籍都会介绍它,有些初学者还会将其与KNN等混淆。k均值是一种聚类算法,属于无监督学习的一种,而KNN是有监督学习/分类学习的一种。聚类:顾名思义,就是讲某些相似的事物聚在一起,形成一个类。这里就涉及到几个概念1.如何表示一个事物?通常我们会准备好一个数据集,里面是我们的数据,每一行代表的...原创 2018-11-26 14:29:35 · 3687 阅读 · 10 评论 -
机器学习-*-朴素贝叶斯
原理(先简单写一下,后续补公式,主要是贴上去代码)朴素贝叶斯有一个较强的前提条件:各个特征之间是独立的他的思想是利用贝叶斯定理来学习到数据的分布,属于生成模型的一种。他根据期望风险最小化推导出后验概率最大化,故可以用极大似然估计和贝叶斯估计来找到模型的参数。代码(numpy 矩阵输入)#!/usr/bin/python# -*- coding:utf-8 -*-"""Author ...原创 2018-11-02 22:29:59 · 349 阅读 · 0 评论 -
机器学习-*-KNN最近邻分类
算法思想通俗易懂:需要预测的数据X与历史数据做距离计算,找到距离最小的排名前K的距离点,看一下这里面哪种类型最多,就判别为X属于哪一类。直接上代码:这里利用了TensorFlow中的MNIST手写数字数据集#!/usr/bin/python# -*- coding:utf-8 -*-"""Author LiHaoTime 2018/10/31 10:46"&a原创 2018-10-31 15:31:11 · 298 阅读 · 0 评论 -
Linux下和MySQL下利用python插入亿万级数据
下载mysqldb首先必须下载mysqldb,下载语句是yum install MySQL-python不熟悉yum的自行百度吧,嘿嘿。 安装之后,在命令行输入 #>>>python#接下来是python代码>>>import MySQLdb>>>#显示出了命令行即为安装成功>>>exit()#退出python插入亿万级数据作者在写SQL时就知道2种写法(大牛另说),(1)一次插入一条,(原创 2016-07-18 17:59:51 · 11880 阅读 · 0 评论 -
Odoo8.0(openerp)
什么是OdooOdoo(前OpenERP)是欧洲开发的一款开源ERP软件,ODOO发展的初衷是为了提供SAP、Microsoft Dynamics等商业ERP软件的开源替代产品。它使用Python语言开发,数据库采用开源的PostgreSQL,系统以GNU GPL开 源协议发布。安装odoo安装odoo的方法分为linux和windows下,具体方法不用多说,在官网https://www.odoo.原创 2016-10-14 12:58:28 · 719 阅读 · 0 评论 -
python操作MongoDB
ps: 想查看mongodb的数据,可以下载Robomongo ->类似navicat的工具建立连接1,导入pymongo 2,导入 MongoClient 3,实例化Client,填入IP和Portimport pymongofrom pymongo import MongoClientclient = MongoClient('10.10.8.161',27017)使用数据库、集合d原创 2017-03-08 16:22:03 · 393 阅读 · 0 评论 -
NLP-*-jieba工具的使用
一 分词支持三种分词模式:1.精确模式,试图将句子最精确地切开,适合文本分析;2.全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。def test_cut(sentence): """ 测试分词三种模式 :param sentence: :...原创 2018-10-25 15:58:38 · 488 阅读 · 0 评论