- 博客(28)
- 资源 (39)
- 收藏
- 关注
原创 python计算idf
#-*- encoding:utf-8 -*-import jiebaimport jieba.analyseimport jsonimport codecsimport math'''计算得到idf文件求idf得步骤:1、对所有文档进行分词,去停用词,结果放入二维list,其中每个元素是set1、得到文档数目;生成所有词的set2、对每个词计算idf:idf = log(
2016-07-31 13:50:37 5226 3
原创 python编码转换,列表编码转换,编码检测,pycharm编写python乱码,文件中以unicode编码方式转成中文
字符串前有u的代表unicode编码,也是python内部编码unicode编码可得到其他编码:#-*- encoding:utf-8 -*-#将unicode编码为utf8print u'的'.encode("utf8")=='的' #acess其他编码解码可得到unicode#-*- encoding:utf-8 -*-#将utf8解码为unicodeprint u
2016-07-31 11:57:31 4392 1
原创 python字符串比较
#-*- encoding:utf-8 -*-print '的'=='的'print u'的'=='的' #errorprint u'的'=='的'.decode("utf8") #acess
2016-07-31 11:47:28 790
原创 Python函数rstrip和lstrip
lstrip = left strip =去除(字符串)左边的=stip leading=去除(字符串)开始的rstrip = right strip =去除(字符串)右边的=strip trailling=去除(字符串)末尾的strip = stip left and right = 去除(字符串的)左边的和右边的=strip leading and trailing = 去除(
2016-07-30 21:45:21 4815
原创 一个集合去掉另一个集合中的内容,可以用来去停用词
#-*- encoding:utf-8 -*-a = ['北京','附近','的','租房']b = ['附近','的']print ",".join(a)print ",".join(b)print ",".join(set(a)-set(b))分词去停用词#-*- encoding:utf-8 -*-import jiebaimport jieba.analy
2016-07-30 21:40:11 2749
原创 python解析json
#-*- encoding:utf-8 -*-import jsons = json.loads('{"name":"test", "type":{"name":"seq", "parameter":["1", "2"]}}')print sprint s.keys()print s["name"]print s["type"]["name"]print s["type"]["pa
2016-07-30 19:57:54 356
转载 KD-tree的原理以及构建与查询操作的python实现
原文地址http://blog.csdn.net/u010551621/article/details/44813299#comments前几天小组讨论会上展示了kd-tree(k-dimension tree),感觉这玩意儿还挺有用的,所以学习了一下它的原理,然后把其中的构建kd-tree以及对应的查询操作实现了一下,现在跟大家分享一下首先说一下什么是kd-tree把
2016-07-30 18:01:47 8284 6
转载 LDA的python实现之模型参数训练
原文地址 http://blog.csdn.net/u010551621/article/details/45258573最近看了不少关于主题模型的东西,要说起主题模型,现在最火的当然是LDA, LDA全称是Latent Dirichlet Allocation(隐狄利克雷分布), 而不是Linear Discriminant Analysis, 相信大家很多都对lda的理解感到痛苦不
2016-07-30 17:05:17 5509 1
原创 Gson解析json数组
package test;import java.lang.reflect.Type; import java.util.LinkedList;import java.util.List; import com.google.gson.Gson; import com.google.gson.reflect.TypeToken; public class Test
2016-07-29 17:51:20 7329 2
转载 jsoup选择器来抓取网页中的数据
http://blog.csdn.net/getchance/article/details/40423103JSOUP是一个没有界面的浏览器,用于分析和抓取网络html数据使用他需要相关jar包,下载链接:http://pan.baidu.com/s/1sjuLGC1例子:抓取http://www.ifanr.com/网页中指定规则新闻链接和标题
2016-07-28 20:17:03 545
原创 并查集
将多个集合合并成没有交集的集合:给定一个字符串的集合,格式如:{aaa,bbb,ccc},{bbb,ddd},{eee,fff},{ggg},{ddd,hhh}。要求将其中交集不为空的集合合并,要求合并完成的集合之间无交集,例如上例应输出{aaa,bbb,ccc,ddd,hhh},{eee,fff},{ggg}。package unionFindSet;import java.util.H
2016-07-27 12:50:18 385
原创 面试题7:用两个栈实现队列(java)
package stackToList;import java.util.Stack;/** * 用两个栈实现队列 * @author yanjie * */public class StackToQueue { static Stack stack1 = new Stack(); static Stack stack2 = new Stack(); public st
2016-07-25 21:39:59 622
原创 合并链表
package mergeLink;/** * 合并链表 * @author yanjie * */public class MergeLink { public static void main(String[] args) { // TODO Auto-generated method stub MergeLink rl = new MergeLink(); int
2016-07-25 20:54:49 371
原创 java克隆容器后,容器内的对象相同
package create;import java.util.ArrayList;import java.util.List;import java.util.Stack;import create.BiTree.Node;/** * java克隆容器后,容器内的对象相同 * @author root * */public class T{ static class
2016-07-24 22:24:47 664
原创 找出所有从根节点到叶子节点路径和等于n的路径并输出
package create;import java.util.Deque;import java.util.Enumeration;import java.util.LinkedList;import java.util.Queue;import java.util.Stack;/** * 创建二叉排序树,二叉树的六种遍历 * @author root * */publi
2016-07-24 22:14:16 2923
原创 简单选择排序
package test1;import java.util.Comparator;import java.util.Iterator;import java.util.TreeMap;import java.util.TreeSet;/** * 简单选择排序 * 每次从i-length中选择最小的,和data[i]个交换 * * @author yanjie * */
2016-07-24 14:54:33 319
原创 找到数组的逆序对
package test1;import java.util.Comparator;import java.util.Iterator;import java.util.TreeMap;import java.util.TreeSet;/** * 找到数组的逆序对 * 直接在归并排序中加一点输出 * * @author yanjie * */public class
2016-07-22 19:37:35 510
原创 找到数组中出现次数超过一半的数字
package test1;/** * 找到数组中出现次数超过一半的数字 * @author yanjie * */public class Test { static int[] data = {1,2,3,2,2,2,5,4,2}; public static int partion(int[] data, int low, int high){ int temp
2016-07-22 17:15:11 361
转载 高级数据管理
原文地址相对于基本数据管理,此处我们将接触到R中多种数学、统计和字符处理函数,学习如何自己编写函数,包括循环和条件执行语句,以及了解数据的整合和概述方法、重塑和重构方法。5.1 一个数据处理难题要讨论数值和字符处理函数,不妨先考虑一个数据问题。一组学生参加了数学、科学和英语考试,需要按照某种成绩衡量指标将三门科目的成绩组合起来并排序,将前20%的学生评定为A,接下来20
2016-07-15 20:14:41 725
原创 shell学习笔记
1、定义变量时不加美元符号$2、执行命令,循环#!/bin/bash pwd files=`ls -li`for file in $files;do echo "file is $file"done 3、使用变量your_name="qinjx"echo $your_nameecho ${your_name}4、
2016-07-11 20:59:56 776
原创 notepad++执行shell脚本设置
1、下载mingw,解压到无空格路径2、打开Notepad,选择 运行->运行 cmd /k D:\dev_tool\linux\MinGW\msys\1.0\bin\bash.exe "$(CURRENT_DIRECTORY)\$(NAME_PART).sh" & PAUSE & EXIT将其中路径换成自己的路径3、保存,设置快捷键,运行注意:$(NAME_PA
2016-07-10 12:24:02 8061
原创 独立同分布
概念:变量序列或者其他随机变量有相同的概率分布,并且互相独立样本空间全体样本服从一个位置分布D,我们获得的每个样本都是独立地从这个分布上采样获得,即独立同分布
2016-07-08 18:57:22 1580
原创 二分类计算precision,recall,和f值
//分为负例 //分为正例//所有负例 654 603//所有正例 209 1517t_t = 1437;t_f = 289;f_t = 683;f_f = 574;t_p = t_t*1.0/(t_t+f_t)t_r = t_t*1.0/(t_t+t_f)f1_t = 2
2016-07-07 10:45:47 2024
原创 使用matlab预处理数据,读取,转置,切分,存储,导入
%先直接使用excel切分数据,然后读入matlab进行处理%从excel中读取数据[FEATURES,TXT,RAW] = xlsread('features');[LABElS,TXT,RAW] = xlsread('labels');%转置矩阵,得到的矩阵每一列为一条数据,每一行为某个特征FEATURES_T = FEATURES';LABElS_T = LABElS';[
2016-07-05 11:03:55 6408
原创 使用python下载图片
# -*- coding: utf-8 -*-import osimport urllibimport urllib2import codecsos.chdir("D:\\dev_data\\weibo\\images_test")os.getcwd()def read_img_list(file_path): fh = open(file_path,'r') i
2016-07-02 15:12:23 455
原创 获取新浪微博api授权
1、申请应用,申请应用成功后有下面两个App Key:App Secret:2、获取code,参数:client_id=App Keyredirect_uri=站内地址response_type=codehttps://api.weibo.com/oauth2/authorize?client_id=XXX&redirect_uri=XXX&respon
2016-07-01 20:12:34 3399
FatJardbgj.zip
2015-02-03
commons-dbcp-1.4和commons-pool-1.6驱动包下载(亲测可用)
2014-02-17
聚类测试数据
2016-08-15
ibernate3.x必须的包
2015-06-07
HibernateDemo
2015-06-07
hibernate3.2_core.rar
2015-06-06
jdic 64位的
2015-05-25
slf4j-api-1.6.4.jar
2015-04-25
commons-logging-1.2.jar下载
2015-04-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人