实践学习
文章平均质量分 65
Moon_treee
为什么要审核啊!还要好久的那种。
展开
-
【12月16日】THUCTC实现基于支持向量机中文文本分类
基于支持向量机实现中文文本分类摘要 支持向量机(简称可看作一种广义的线性分类器,其基本思想是:通过非线性变换将输入空间变换到一个高维的特征空间,并在新空间中寻找最优的线性分界面。关键词 文本分类 特征提取 支持向量机1引言所谓“数据丰富但知识缺乏”的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。其原创 2016-12-16 16:00:32 · 2122 阅读 · 2 评论 -
【12月20日】LeetCode刷题日志(四):Min Cost Climbing Stairs
题目描述 On a staircase, the i-th step has some non-negative cost cost[i] assigned (0 indexed). Once you pay the cost, you can either climb one or two steps. You need to find minimum cost to reach the t原创 2017-12-20 16:36:27 · 303 阅读 · 0 评论 -
【10月23日】机器学习实战(一)KNN算法:手写识别系统
k-近邻算法怕是最简单的机器学习的分类算法了。简单的说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。源码+实验数据地址:https://github.com/MoonTreee/machine_learning其优点:精度高、对异常值不敏感、无数据输入假定;缺点:计算复杂度高、空间复杂度高;and 需要大量的标注数据适用数据范围:数值型和标称型。本文基于k-近邻算原创 2017-10-24 09:30:41 · 525 阅读 · 0 评论 -
【10月31日】机器学习实战(二)决策树:隐形眼镜数据集
决策树的优点:计算的复杂度不高,输出的结果易于理解,对中间值的确实不敏感,可以处理不相关的特征数据决策树的缺点:可能会产生过度匹配的问题。其本质的思想是通过寻找区分度最好的特征(属性),用于支持分类规则的制定。那么哪些特征是区分度好的,哪些特征是区分度坏的呢?换句话说,如何衡量数据集中特征(属性)对实例的区分程度呢?依据香农的信息论,引入信息熵的思想作为对特征区分程度的度量。当然,原创 2017-10-31 20:50:03 · 6506 阅读 · 0 评论 -
【9月18日】面向学术文献的知识挖掘方法研究
摘要本文提出一种基于位置加权的核心知识挖掘方法,旨在以句尾知识处理粒度,抽取正文中的核心句子作为独立的知识单元。通过量化句子间的关联,将正文表示成一个以句子为节点,句子间关联为边的文本关系网络,提出了基于章节的位置加权算法,结合社会网络分析方法,挖掘出文本中的核心知识单元部分的句子。相关概念知识抽取 是对蕴含于文献中的知识进行识别、理解、筛选、格式化,从而把文献中的各个知识点抽取出来,是信息抽取规则原创 2017-09-18 13:22:53 · 678 阅读 · 0 评论 -
【9月16日】中文信息MMT模型
近期读了《自然语言处理的形式模型》一书,为冯志伟老先生的科研精神点赞。致敬。作者根据依存语法和德国配价语法的精髓,针对N.Chomsky短语结构语法的弱点和汉语语法的特点,在80年代初提出了Multiple branched Multiple labeled Tree analysis,即多叉多标记树形图分析法(有称“中文信息MMT模型”)。早期的MMT模型提出汉语中的一系列的特征原创 2017-09-16 12:54:23 · 864 阅读 · 0 评论 -
【9月20日】 Improved Pattern Learning for Bootstrapped Entity Extraction(上)
摘要通过设立种子词,自举模式学习(bootstrapped pattern learning)可以从未标签化的文本中进行模式和实体的迭代学习。标签化数据的缺乏,会导致极性识别的困难(正向或者负向?)。通过扩展的分布式概率以及编辑距离,本文基于无监督学习的特征识别方法对特定领域以及一般文本进行特征提取。实验数据来自于医疗行业,对其中的drug-and-treatment信息进行抽取。1.引言虽然基于机原创 2017-09-20 23:41:06 · 1010 阅读 · 1 评论 -
【7月3日】LeetCode刷题日志(一):TwoSum
【七月三日】LeetCode刷题日志(一):TwoSum好久没有更新了。现在开始刷题package com.njust.day0703;import java.util.ArrayList;/** * Given an array of integers, return indices of the * two numbers such that they add up to a specifi原创 2017-07-03 21:42:24 · 513 阅读 · 0 评论 -
【4月20日】使用requests登陆教务处网站并查询课表
最近上课总是记不住是哪个教室,感觉每次都要人工登陆教务处网站去查教室很麻烦。正好在学习爬虫,于是想直接写个爬虫去帮我查课表信息岂不美哉?说干就干。使用requests,个人感觉比较好用的第三方库,基于py3;解析用beautifulsoup。打开Chorme,登陆南理工的教务处网站并跟踪登陆过程的网络行为。可以看见,需要输入的信息有三样。用户名和密码好办,主要是验证码的及时识别。拟原创 2017-04-20 09:23:20 · 1149 阅读 · 0 评论 -
【3月24日】Requests+正则表达式抓取猫眼电影Top100
本次实验爬虫任务工具较为简单,主要是熟悉正则表达式的匹配:pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction"原创 2017-03-24 22:48:41 · 2237 阅读 · 0 评论 -
【3月20日】Python自制简易爬虫框架
简易框架由以下几个模块:url管理器 :管理网址new_urls存放未爬取的网址的集合,old_urls存放已经爬取网址的集合html下载器 :使用urllib.request.urlopen(python3)对html资源进行下载html解析器 :使用BeautifulSoup对页面内容进行解析html输出器 :对爬取的结果封装成html文件输出url管理器 class UrlManag原创 2017-03-21 00:00:10 · 662 阅读 · 4 评论 -
【3月17日】通过反射机制了解泛型的本质
package com.tree.reflect;import java.lang.reflect.Method;import java.util.ArrayList;public class MethodDemo01 { /** * 通过反射机制了解泛型的本质 */ public static void main(String[] args) { ArrayList l原创 2017-03-17 16:01:54 · 454 阅读 · 0 评论 -
【3月2日】启航!GitHub入门教程:上传文件到GitHub
GitHub不多作介绍,上面有非常多优秀的项目以及神级开发人员。刚刚看了下时间线,申请账号已经八个月了。只是偶尔clone几个项目,刚开始的时候创建了一个HelloWorld,然后就再也没有动过了!为啥?不懂。不会。不学。不求上进!对着教程,终于成功commit一个基于SSH框架整合的项目。过程并不顺利,总是蹦出来形形色色的问题。好在网络有够发达,坑基本上被前人踩完了,花点时间和耐心,问题总能原创 2017-03-03 07:29:38 · 649 阅读 · 0 评论 -
【12月22日】LeetCode刷题日志(五):Min Cost Climbing Stairs
题目描述 On a staircase, the i-th step has some non-negative cost cost[i] assigned (0 indexed). Once you pay the cost, you can either climb one or two steps. You need to find minimum cost to reach原创 2017-12-25 19:32:02 · 287 阅读 · 0 评论