关闭

[置顶] 新技能:Markdown中使用LaTeX

Markdown中使用LaTeXAuthor:kevinelstri DateTime:2017/3/16注意:文本所有的 |,在使用的过程中都是\,Markdown中显示的是|,其实是\1. Markdown中使用LaTeX基础LaTeX 公式有两种,一种是用在正文中的,一种是单独显示的。正文中的公式用 $…$ 来定义,单独显示的用 $$…$$ 来定义,其中 $符号中间包含三个点表示的是...
阅读(406) 评论(0)

[置顶] 【斯坦福大学-吴恩达-机器学习】

Author:kevinelstri DateTime:2017/3/14 本课程提供了一个广泛的介绍机器学习、数据挖掘、统计模式识别的课程,主题包括: 1、监督学习(参数/非参数算法,支持向量机,核函数,神经网络)。 2、无监督学习(聚类,降维,推荐系统,深入学习推荐)。 3、在机器学习的最佳实践(偏差/方差理论;在机器学习和人工智能创新过程)。 本...
阅读(601) 评论(0)

[置顶] Scipy Lecture Notes

Author:kevinelstri DateTime:2017/3/14 From:http://www.scipy-lectures.org/ 关于科学Python系统的教程:快速介绍重要工具和技术。不同的章节对应一个1到2小时的课程来增加专业水平,从初学者到专家。1. Getting started with Python for science 1.1. Python scienti...
阅读(284) 评论(0)

[置顶] Analytics Vidhya

Author:kevinelstri译文: 使用python读取数据科学最常用的文件格式...
阅读(378) 评论(0)

[置顶] 【数据分析】图书馆数据

此次数据分析实践是在这篇论文《基于数据挖掘的图书馆书目推荐服务的研究》的基础上进行实施的,将论文中提到的相关技术及相关知识点进行实践操作,并对相关业务进行逻辑上的分析。 【数据分析】图书馆数据-01建表 【数据分析】图书馆数据-02重命名、索书号、分组 【数据分析】图书馆数据-03直方图展示借书数量与借书人数之间的关系 【数据分析】图书馆数据-04借阅情况聚类挖掘 【数据分析】图书馆数据...
阅读(313) 评论(0)

[置顶] 不是技术牛人,如何拿到国内IT巨头的Offer

目录(?)[+]无坚不摧完整项目深厚内功坚实基础锦上添花无限潜力写在最后不久前,byvoid面阿里星计划的面试结果截图泄漏,引起无数IT屌丝的羡慕敬仰。看看这些牛人,NOI金牌,开源社区名人,三年级开始写Basic…在跪拜之余我们不禁要想,和这些牛人比,作为绝大部分技术屌丝的同学们,是否真的与国内IT巨头遥不可及呢? 当你打开这个帖子的时候,我已经默认你是此文的目标读者,也就是想进入国内一流互联网企...
阅读(382) 评论(0)

[置顶] 基于python的机器学习库Sklearn

scikit-learn,也称为sklearn,是基于python的机器学习库,可以方便进行机器学习算法的实施,包括:分类、回归、聚类、降维、模型选择和预处理等数据挖掘的相关算法。下面是对官方文档进行学习的收获,以代码的形式将官方文档的内容翻译记录在代码中,方便算法的学习。 scikit-learn1:使用案例对sklearn库进行简单介绍 scikit-learn2:使用sklearn库进行统计学...
阅读(647) 评论(0)

[置顶] 基于python的数据分析库Pandas

Pandas中的数据结构 Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。 Time- Series:以时间为索引的Series。 DataFrame:二维的表格型数据结构。很多功能与R中的dat...
阅读(257) 评论(0)

[置顶] 2017校招数据分析岗笔试/面试知识点

知识点1:贝叶斯公式贝叶斯公式:P(B|A)=P(A|B)*P(B)/P(A) 其中P(A)可以展开为 P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+…+P(A|Bn)*P(Bn)知识点2:关联规则分析主要考的是支持度和置信度。知识点3:聚类聚类之间类的度量是分距离和相似系数来度量的,距离用来度量样品之间的相似性(K-means聚类,系统聚类中的Q型聚类),相似系数用来度量变量之...
阅读(480) 评论(0)

[置顶] MySQL大咖一日行

MySQL开发基础:【MySQL 00】MySQL数据表 【MySQL 01】查询–总结 【MySQL 02】数据库总结 【MySQL 03】各种数据库对应的jar包、驱动类名和URL格式 【MySQL 04】命令行查询乱码问题 【MySQL 05】使用Java对MySQL进行操作(创建数据库) 【MySQL 06】事务处理 【MySQL 07】数据库恢复技术 【MySQL 08】存...
阅读(304) 评论(0)

[置顶] Python从入门到放弃

Python基础知识: Python列表 Python元组 Python字符串 Python字典 Python正则 Python字典排序 Python编码 Python正则表达式 Python集合 Python map Python reduce Python lambda...
阅读(622) 评论(0)

Installer integrity check has failed 疑难杂症

Installer integrity check has failed 疑难杂症安装pycharm遇到问题:~~~ Installer integrity check has failed. Common causes include incomplete download and damaged media. Contact the installer’s author to obtain...
阅读(168) 评论(0)

Chunkize warning while installing gensim 疑难杂症

UserWarning: detected Windows; aliasing chunkize to chunkize_serial warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")解决方案: 在import gensim前面加入:import warnings warnings.filterwar...
阅读(352) 评论(0)

基于同义词词林的文本相似度算法研究语料库

本文是基于大学排行榜指标体系进行实验分析的,从指标体系中获取10个指标进行数据实验分析,数据的采集是使用2017年大学排名前100所高校的高校简介进行文本分析,下面是100所高校简介的链接地址: 编号 高校 高校简介URL地址 1 北京大学 http://www.pku.edu.cn/about/index.htm 2 清华大学 http://www.tsinghu...
阅读(195) 评论(0)

聚类的评价指标(无监督学习)

详细理论说明,可以查看其他博客:# coding:utf-8from sklearn import metrics""" 聚类性能评估 """ """ 1、Adjusted Rand index (ARI) 优点: 1.1 对任意数量的聚类中心和样本数,随机聚类的ARI都非常接近于0; 1.2 取值在[-1,1]之间,负数代表结果不好,越接近于1越好;...
阅读(813) 评论(0)

python使用JPype来运行java文件

1、下载JPype(注意版本,这里就不介绍了) 2、使用方法:# -*-coding:utf-8-*-# import jpype # # jvmPath = jpype.getDefaultJVMPath() # 默认 JVM 路径 # jpype.startJVM(jvmPath) # start # jpype.java.lang.System.out.println("hello wo...
阅读(509) 评论(0)

文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)

文本分析过程中,中文文本分析是一个非常重要的环节,而停用词表的选择也是非常关键的,网络流行了多种版本的停用词表,都具有各自的特点,现在对网络流行的多种停用词表继续去重处理,综合实现新的停用词表。不同版本的停用词表: 去重合并:# -*-coding:utf-8-*- import os """ 合并文本文件 """ mergefiledir = os.getcwd()+'\\stopwor...
阅读(2564) 评论(6)

文本分析--基于gensim的文本主题模型分析

#!/usr/bin/python # -*- coding:utf8 -*-import os import time import re import jieba.analyse import time# 关键词获取 def post_cut(): fr = open("post_data.txt") # 源文件 fo = open("post_key.txt", "a+")...
阅读(494) 评论(0)

文本分析--校园新闻:聚类

# -*-coding:utf-8-*-import jieba import os import codecs from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import...
阅读(303) 评论(0)

文本分析--校园新闻:关键词获取

新闻数据:       每行都是一个文档,并且已经进行了分词和停用词处理。 # -*-coding:utf-8-*-import uniout import jieba.analyse from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTransformer from s...
阅读(263) 评论(0)

文本分析--Gensim向量空间

# -*-coding:utf-8-*-import gensim""" Tutorial 1: Corpora and Vector Spaces """ import logginglog = logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)"""...
阅读(505) 评论(0)

文本分析--Gensim概述

# -*-coding:utf-8-*-import gensim""" Getting Started with gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中, 无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA, 和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算...
阅读(530) 评论(0)

文本分析--NLTK访问文件

# -*-coding:utf-8-*-from __future__ import division import nltk, re, pprint""" 从网络和硬盘中访问文本: 1、电子书 2、处理的html 3、处理搜索引擎的结果 4、读取本地文件 5、从pdf,word及其他二进制格式中读取...
阅读(338) 评论(0)

文本分析--NLTK语料库选择

# -*-coding:utf-8-*-""" from nltk.book import * 获取所有的语料库 """""" 古滕堡语料库 """ # from nltk.corpus import gutenberg # 直接加载某个具体语料库 # # print gutenberg.fileids() # 语料库的文本 # # emma = gutenberg.words(...
阅读(526) 评论(0)

文本分析--NLTK自然语言处理

# -*-coding:utf-8-*-from __future__ import division from nltk.book import *""" 搜索文本 """ # print text1 # print text1.concordance('monstrous') # 查找有这个单词的句子,并显示出来 # print '---------------------------...
阅读(441) 评论(0)

文本分析--simhash算法进行文本相似度判断

simhash算法分析:文本相似度算法:1、TF-IDF:TF(词频),IDF(逆词频)利用tf-idf得到一个词语的权重,来计算一篇文章的关键词2、simhash:局部敏感hash局部敏感:A、B具有一定相似性,在hash后,仍然保持相似性。通过将关键词集合hash成一串二进制,直接对比二进制数,来看其相似性得到两篇文档的相似性,查看相似性的时候采用海明距离(二进制数之间计算)。对文章simhas...
阅读(398) 评论(0)
255条 共17页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:329277次
    • 积分:4085
    • 等级:
    • 排名:第7953名
    • 原创:232篇
    • 转载:21篇
    • 译文:2篇
    • 评论:162条
    联系方式

    博客专栏