Machile_Yuan
码龄13年
关注
提问 私信
  • 博客:30,722
    30,722
    总访问量
  • 3
    原创
  • 622,110
    排名
  • 2
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2012-05-24
博客简介:

MachileYuan的专栏

查看详细资料
个人成就
  • 获得10次点赞
  • 内容获得2次评论
  • 获得24次收藏
创作历程
  • 3篇
    2015年
  • 9篇
    2014年
  • 12篇
    2013年
TA的专栏
  • 算法设计
    2篇
  • 城市计算
    1篇
  • 信息检索
    1篇
  • tfidf
    1篇
  • 自然语言处理
    1篇
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

473人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

蓄水池抽样(Reservoir Sampling)

在不知道文件总行数的情况下,如何从文件中随机的抽取一行?  首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的获得一个行数,从而随机的取出一行,但是,当前的情况是不知道行数,这样如何求呢?我们需要一个概念来帮助我们做出猜想,来使得对每一行取出的概率相等,也即随机。这个概念即蓄水池抽样(Reservoir Sampling)。
转载
发布博客 2015.09.28 ·
654 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java程序包含第三方库,在dos下编译和运行

当前目录为src、bin等所在的目录编译dir /b /s src\*.java >list.txtjavac -d bin @list.txt运行java -classpath .;.\lib\mysql-connector-java-5.1.34-bin.jar;.\bin packageName.javaName
原创
发布博客 2015.04.22 ·
667 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

各种距离

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。  本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离
转载
发布博客 2015.04.08 ·
633 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python库

xy 1.1.0 xy is a module that gathers all Python(x,y) tools 集成所有python(x,y)包含的函数库和工具xydoc 1.0.3 Collection of all freely available help files and examples on Python language and its libraries pytho
转载
发布博客 2014.08.15 ·
1060 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Java指定编码读写文件(UTF-8)

已有更好的方法,详见 Java文件操作类FileManager读取    import java.io.BufferedReader;      import java.io.FileInputStream;      import java.io.InputStreamReader;      String FileContent = ""; // 文件很长的话建
转载
发布博客 2014.05.08 ·
1711 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

C++利用CMarkup来解析xml文件

CMarkup这个小型XML的分析器
转载
发布博客 2014.04.23 ·
731 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

java中使用正则表达式匹配特殊字符串

Java代码  public static String regexReplace(String str){          Pattern p = null;          Matcher m = null;          String value = null;            // 去掉          p = Pattern.com
转载
发布博客 2014.03.31 ·
2104 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

WordNet词网研究——JWI(Java Wordnet Interface)WordNet Java接口

JWI (the MIT Java Wordnet Interface) is a Java library for interfacing with Wordnet. JWI supports access to Wordnet versions 1.6 through 3.0, among other related Wordnet extensions. Wordnet is a fre
转载
发布博客 2014.03.26 ·
1077 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

Java Map按键排序和按值排序

Map排序的方式有很多种,这里记录下自己总结的两种比较常用的方式:按键排序(sort by key), 按值排序(sort by value)。按键排序(sort by key)jdk内置的java.util包下的TreeMap既可满足此类需求,原理很简单,其重载的构造器之一有一个参数,该参数接受一个比较器,比较器定义比较规则,比较规则就是作用于Tr
转载
发布博客 2014.03.12 ·
1016 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

eclipse调试常用技巧

1、 条件断点断点大家都比较熟悉,在Eclipse Java 编辑区的行头双击就会得到一个断点,代码会运行到此处时停止。条件断点,顾名思义就是一个有一定条件的断点,只有满足了用户设置的条件,代码才会在运行到断点处时停止。在断点处点击鼠标右键,选择最后一个"Breakpoint Properties"断点的属性界面及各个选项的意思如下图,2、
转载
发布博客 2014.03.12 ·
491 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

利用java对URL进行编码

1. URL编码表backspace %08I %49v %76ó %D3tab %09J %4Aw %77Ô %D4linefeed %0AK %4Bx %78&Ot
原创
发布博客 2014.03.12 ·
2530 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

通过stanford-postagger对英文单词进行词性标注

1.models介绍该版本的词性标注工具中有一个models文件夹,该文件夹下有两种类型的文件:.tagger类型和. props类型。其中.tagger类型的文件是词性标注训练出来的模型文件,. props类型是其对应的properties文件。models文件夹下所有的文件如下图:2.程序及说明    这个开源词性标注工具中有三种分类器,english-bidirect
转载
发布博客 2014.03.10 ·
2653 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

TFIDF算法

TF-IDF算法在两个方面都有重要的作用:1. 提取文章的关键字词 2. 根据关键词检索出相关度高的文本。这个算法被公认为信息检索领域最重要的发明,是很多算法和模型的基础。什么是TF-IDFTF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种 统计方法,用以评估一
转载
发布博客 2013.11.04 ·
1545 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

循环赛日程表

问题描述:设有n(n = 2^k)位选手参加网球循环赛,循环赛共进行n-1天,每位选手要与其他n-1位选手比赛一场,且每位选手每天必须比赛一场,不能轮空。试按此要求为比赛安排日程: (1) 每个选手必须与其他n-1个选手各赛一场; (2) 每个选手一天只能赛一场; (3) 循环赛一共进行n-1天。选手第一天第二天第三天第四天第五天第六天第七天1234567821 436587341
转载
发布博客 2013.11.04 ·
1090 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

关于微软研究院(谢幸、郑宇研究员主导的)“智能城市”“智能生活”研究的一个归纳

微软亚洲研究院基于GPS数据展开的研究工作,取得了另学术界瞩目的成就。从2008年开始每年都在顶级的计算机类会议上有文章发出,掀起了研究GPS数据智能化处理的热潮。       他们的工作由谢幸研究员和郑宇研究员主导。实验数据采集主要有两个工程:1、Geolife工程使用的,170多个志愿者4年左右的GPS轨迹;2、北京市2万多出租车约3个月的行驶轨迹。参见:htt
转载
发布博客 2013.10.05 ·
1397 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

信息抽取技术纵览

网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey)Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3)第一章         导论   信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成 表格一样的组织形式。输入
转载
发布博客 2013.07.19 ·
2223 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

HtmlParser提取网页中的纯文本信息

HTMLParser 一个解析web页面的开源类库。         准备学习下搜索方面的技术,就学习了些网络爬虫的知识。最近一直在一个点上困惑,如何提取一个网页上的纯文本信息。要使用正则表达式的话呢,需要考虑很多因素,而且标签也太多,不是很方便,效果也不好。就准备利用开源包,最后选择了HtmlParser。    在网上搜索如何利用HtmlParser提取页面信息。提取的结果
转载
发布博客 2013.07.11 ·
885 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

TFIDF算法java实现

一、算法简介        TF-IDF(term frequency–inverse document frequency)。        TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF*IDF,TF词频(Term Frequency),IDF反文档
转载
发布博客 2013.07.11 ·
972 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

C++中XML的基本操作

我用的是一种很笨的方法,但可以帮助初学者了解访问xml节点的过程。 已知有一个xml文件(bookstore.xml)如下:oberon’s legacycorets, eva5.951、往节点中插入一个节点:xmldocument xmldoc=new xmldocument();xmldoc.load("bookstore.xml");
转载
发布博客 2013.06.23 ·
681 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

参考文献标准格式

参考文献(即引文出处)的类型以单字母方式标识:M——专著,C——论文集,N——报纸文章,J——期刊文章,D——学位论文,R——报告,S——标准,P——专利;对于不属于上述的文献类型,采用字母“Z”标识。参考文献的格式要求很多,一般来说参考文献的格式都要符合国标GB7714-87《文后参考文献著录规则》,但实际中很多出版社和期刊对论文的要求也不尽相同。发现周围的很多人对论文参考文献的规范格式
转载
发布博客 2013.05.25 ·
3974 阅读 ·
2 点赞 ·
1 评论 ·
14 收藏
加载更多