- 博客(69)
- 资源 (64)
- 问答 (1)
- 收藏
- 关注
原创 python使用lxml解析html获取页面内所有叶子节点的xpath路径
因为需要使用叶子节点的路径来作为特征,但是原始的lxml模块解析之后得到的却是整个页面中所有节点的xpath路径,不是我们真正想要的形式,所以就要进行相关的处理才行了,差了很多网上的博客和文档也没有找到一个是关于输出html中全部叶子节点的API接口或者函数,也可能是自己没有那份耐心,没有找到合适的资源,只好放弃了寻找,但是这并不说明没有其他的方法了,在对页面全部节点的xpath输出之后观察得到的
2017-06-30 22:53:38 8119 17
原创 Java之常用函数笔记
Java中有很多常用的小函数,跟python中很多内置的函数是一样的性质,如:sorted()、strip()、replace()等等,今天简单的总结了一下我使用最多的几个字符串、数字、日期相关的函数,如下:字符处理的函数lower():转成小写upper():转成大写initcap():将首字母转换成大写,其余字母转换成小写concat():将两个字符串连接在一起subs
2017-06-30 22:37:30 4725
转载 GitHub超详细图文攻略 - Git客户端下载安装 GitHub提交修改源码工作流程 Git分支 标签 过滤 Git版本工作流
转自:http://blog.csdn.net/vipzjyno1/article/details/22098621最近听同事说他都在使用GitHub,GitHub是程序员的社区,在里面可以学到很多书上学不到的东西,所以最近在准备入手这方面的知识去尝试学习,正好碰到这么详细完整的文章,就转载了,希望对自己和大家有帮助。GitHub操作总结 : 总结看不明白就看下面的详细
2017-06-30 17:14:46 4018
转载 Pycharm和Anaconda中如何安装package
这一篇不错的关于pycharm和Anaconda的使用的文章,但是前提是对pycharm已经有所了解或者使用过一定时间的人,Anaconda确实是一个不可多得的东西,能省去安装python的第三方包的很多的麻烦转自:http://blog.csdn.net/chaowanghn/article/details/54017331如不想被转载请联系告知删除使用Pycharm为了方便,我
2017-06-30 10:29:50 3958
原创 Java之面试基础知识学习笔记
1.标签的使用:在一个多层的嵌套循环中使用break和continue,那么只是退出或结束break和continue所在的循环,如果想指定退出某层循环,需要为此层循环设定一个标签,break和continue后可以写一个标签名,达到退出指定循环的目的;标签的定义格式是,在循环语句上面写上标签名2.数组存储多个类型相同的数据,相同类型数据的集合,使用数组前,需要先开辟空间(即数组的长度);
2017-06-29 19:46:12 3234
转载 python调用Java代码并执行--------jpype使用篇
一直想可以做到在python的环境中,执行java的程序,而不需要单独的去执行java程序之后得到的结果再用python处理,恰好今天找到了一个很不错的讲解,需要的资源里面也都有。转自:http://www.cnblogs.com/junrong624/p/5278457.html一、JPype简述1.JPype是什么? JPype是一个能够让 pyth
2017-06-29 14:37:40 25412
原创 python实现完整的特征工程,实践论文中的分类模型和方法用于恶意页面的分类与识别
在大学的时候参与了一个学校的项目,自己做的工作就是仿冒网站中的数据清洗、特征选择、以及后续的机器学习模型的选择等相关的方面,作为一个入门级别的菜鸟新手来说,中间经历的东西恐怕只有自己懂的,做了很多事情,大学的那段时间大多时间都在实验室里面来摸索,写在这里可能也都是班门弄斧了,我是一个半路出家的progammer,说的这些话写的这些东西是希望能够帮到很多跟我一样在考研的选择上选择了跨度的同学,尽量可
2017-06-29 11:35:22 5307
转载 elasticsearch
转自:http://baike.baidu.com/link?url=HCstVnAPtXJ0brZDlLaciRXrMycEmx4pDDPTFsc5-Ku2W4LC53DItJ-7u8XfSJB8fmOop3PX6sncsFGhIFezCRCTpP5pVkUcvskingYNh7_elasticsearchElasticSearch是一个基于Lucene的搜索服务器。它提
2017-06-28 22:39:09 3297
转载 git快速入门之一:创建本地仓库并同步到远程
原文地址:http://www.yyztech.com/archives/38/Git是非常强大的版本管理工具。接下来的时间里,我就和大家絮叨絮叨git的入门:如何在本地创建一个git仓库,并把自己的本地代码同步到远程。此教程是在mac上操作的,如果您的系统是Linux,那么操作方法相同;如果您的系统是windows,那么,只需要把git的bash窗口调出来,以后的过程也都与linux相同。
2017-06-28 11:30:48 3338
原创 文本、词相似度论文阅读笔记
基于语义理解 的文本相似度算法 与 基 于统 计学 的相 似度计算 方法相 比,基于语 义理解的相似度计算方法 不需要大规模语料库的支持 ,也不需要 长时间 的训练 ,具有准确率高 的特点 ,相关 的研究 主要有使用 W ordN et 进行相 似度计算 的方法 ;目前 ,基于语义理解 的相似 度计算大 多限于词语 或句子范 围 。 文本的相似度包括:词语 与词语 、词语与
2017-06-28 08:21:16 4132
原创 如何取消恶心的chrome浏览器被360篡改劫持问题
打开浏览器最令人烦的就是好端端的的浏览器首页都被改成360浏览器的首页,很多软件安装的时候都被绑定了360的几乎全套软件,包括360安全浏览器、360安全卫士、360软件管家等等,几乎装一个软件之后要卸载一堆软件,今天查了很多如何修改或者设置chrome的主页,按照教程修改了还是不能解决问题,后来找到了一个好方法,也是很简单,在这里记录一下作为记录:右键chrome浏览器点击属性点击目
2017-06-28 07:12:12 19011
转载 如何计算文本文档词向量之间的相似度----一些概念与方法
在计算文本相似项发现方面,有以下一些可参考的方法。这些概念和方法会帮助我们开拓思路。 相似度计算方面Jaccard相似度:集合之间的Jaccard相似度等于交集大小与并集大小的比例。适合的应用包括文档文本相似度以及顾客购物习惯的相似度计算等。Shingling:k-shingle是指文档中连续出现的任意k个字符。如果将文档表示成其k-shingle集合,那么就可以基
2017-06-27 22:10:25 9448 2
转载 如何解决LSTM循环神经网络中的超长序列问题
时间 2017-06-27 15:57:39 机器之心原文 https://www.jiqizhixin.com/articles/e8d4e413-a718-49ac-ae79-c197ba8d3601主题 LSTM在 LSTM 循环神经网络面临长序列输入时,我们应该怎样应对?Jason Brownlee 给了我们 6 种解决方案。长短期记忆(LSTM)循
2017-06-27 21:55:51 15338
转载 贝叶斯深度学习——基于PyMC3的变分推理
时间 2016-06-12 10:13:38 CSDN原文 http://geek.csdn.net/news/detail/80255主题 深度学习 PyMC3原文链接: Bayesian Deep Learning 作者: Thomas Wiecki ,关注贝叶斯模型与Python 译者:刘翔宇 校对:赵屹华 责编:周建丁(zhoujd@cs
2017-06-27 21:54:00 5799
转载 Linux NFS
NFS服务器设置及mount命令挂载转自:http://blog.csdn.NET/kevinhg/article/details/5967432一、NFS服务器的设定NFS服务器的设定可以通过/etc/exports这个文件进行,设定格式如下:分享目录 主机名称或者IP(参数1,参数2)/arm2410s 10.22.22
2017-06-27 19:46:42 4066
转载 TensorFlow学习笔记
原文转载自:http://www.cnblogs.com/lienhua34/p/5998375.html关于Tensorflow的基本介绍Tensorflow是一个基于图的计算系统,其主要应用于机器学习。从Tensorflow名字的字面意思可以拆分成两部分来理解:Tensor+flow。Tensor:中文名可以称为“张量”,其本质就是任意维度的数组。一
2017-06-27 19:34:47 3755
转载 阿里巴巴的相关-----ODPS技术架构、Java Web架构、PAI机器学习平台
摘要:ODPS是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架。本文从ODPS面临的挑战、技术架构、Hadoop迁移到ODPS、应用实践注意点等方面带领我们初步了解了ODPS的现状与前景。初识ODPSODPS是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架,主要的功能组件有如下几个。Tunnel服务:数据进出ODPS的唯一通道
2017-06-27 19:26:36 6969
转载 25张图让你读懂神经网络架构
最近开始学习深度学习的点点滴滴,作为一个绝对的菜鸟,这里决定新开了一个分类为深度学习里面记录自己的学习记录,或者是博客转载,或者是实践笔记,不管怎样,深度学习带来的冲击是前所未有的,必须努力去学习。转自:http://blog.csdn.net/nicholas_liu2017/article/details/73694666由于新的神经网络架构无时无刻不在涌现,想要记录所有的神经
2017-06-27 19:22:46 6133 1
转载 《Attention-based LSTM for Aspect-level Sentiment Classification》阅读笔记
《Attention-based LSTM for Aspect-level Sentiment Classification》阅读笔记simple7 个月前转载请注明出处:西土城的搬砖日常原文链接:Attention-based LSTM for Aspect-level Sentiment Classification来源:EMNLP2016问题:a
2017-06-27 19:19:52 7284 5
转载 文本情感分类
电影文本情感分类Github地址Kaggle地址这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯、逻辑回归等,这里挑战之一是文本内容的向量化,因此,我们首先尝试基于TF-IDF的向量化方法,然后尝试word2vec。# -*- coding: UTF-8 -*-import pa
2017-06-27 19:14:32 3809 4
转载 文本分类的python实现-基于Xgboost算法
转自:http://blog.csdn.net/orlandowww/article/details/52967187描述训练集为评论文本,标签为 pos,neu,neg三种分类,train.csv的第一列为文本content,第二列为label。python的xgboost包安装方法,网上有很多详细的介绍参数XGBoost的作者把所有的参数分成了三类:1、
2017-06-27 18:52:23 5777
转载 中文分词的python实现----HMM、FMM
转自:http://blog.csdn.net/orlandowww/article/details/52706135隐马尔科夫模型(HMM)模型介绍HMM模型是由一个“五元组”组成:StatusSet: 状态值集合ObservedSet: 观察值集合TransProbMatrix: 转移概率矩阵EmitProbMatrix: 发射概率矩阵InitStatus: 初
2017-06-27 18:50:41 5826 11
转载 词性标注的python实现-基于平均感知机算法
转自:http://blog.csdn.net/orlandowww/article/details/52744355平均感知机算法(Averaged Perceptron)感知机算法是非常好的二分类算法,该算法求取一个分离超平面,超平面由w参数化并用来预测,对于一个样本x,感知机算法通过计算y = [w,x]预测样本的标签,最终的预测标签通过计算sign(y)来实现。算法仅在预测
2017-06-27 18:49:00 4970
转载 win10+64位 安装Theano并实现GPU加速
转自:http://blog.csdn.net/orlandowww/article/details/53313804一.安装Anaconda我使用的Anaconda是对应的python2.7 配置环境变量:用户变量中的path变量(如果没有就新建一个),在后边追加C:\Anaconda;C:\Anaconda\Scripts; 不要漏掉分号,此处根据自己的Anaconda安装
2017-06-27 18:46:15 3610
转载 基于Attention Model的Aspect level文本情感分类---用Python+Keras实现
转自:http://blog.csdn.net/orlandowww/article/details/53897634?utm_source=itdadao&utm_medium=referral1、关于aspect level的情感分析给定一个句子和句子中出现的某个aspect,aspect-level 情感分析的目标是分析出这个句子在给定aspect上的情感倾向。例如:
2017-06-27 18:41:59 4899 13
原创 python使用BeautifulSoup的prettify功能来处理HTML文档,之后使用Levenshtein编辑距离计算文档间的相似度
字符串的处理可谓是一个老生常谈的话题了,处理的方法也是有很多的积累的,利用字符串的匹配来计算文档整体之间的相似度是一个惯用的方法,但里面还有很多具体的细节需要注意,今天在使用Levenshtein距离的时候遇到了一个问题,不太知道该如何衡量了,这里先说一下做的事情: 首先使用BeautifulSoup来解析html文档,去除除了html文档非标签节点之外的内容,之后使用prettify函
2017-06-27 16:28:12 5515 2
原创 python实现字典树的插入、查找功能并基于pickle模块持久化存储字典树
字典树是一个很有意思的东西,一直想用用试试,最早接触的时候也是在学长讲的时候了解到了这么一个东西,今天想起来了就实现了一下,很简单,因为我只是需要插入和查找这么两个功能用于后续的工作,对于字典树的介绍我就不多说了因为网上的教程讲解什么也都很多,在这里作为一个探索学习的记录就贴一下具体的一些介绍和性质,均来源于网上,如下: 字典树(Trie)可以保存一些字符串->值的对应关系。基本上,它跟
2017-06-26 17:13:22 5429 1
转载 python pickle模块详解
转自:http://www.cnblogs.com/cobbliu/archive/2012/09/04/2670178.html最近因为使用python的持久化存储模型的功能,就来学习pickle模块了,发现一篇很详细的教程,保存下来作为参考python pickle模块持久性就是指保持对象,甚至在多次执行同一程序之间也保持对象。通过本文,您会对 Python对象
2017-06-26 16:55:52 3470
原创 python使用lxml库对解析后的DOM树形成的xpath计算得到平均值、中位数、方差
这篇文章的内容是接着上一篇的内容继续的,上一篇文章中简单的得到了DOM的最大深度,这里我要接着对得到的数据进行计算,分别得到均值、中位数、方差。 利用均值和中位数的目的是:利用统计的特征来衡量一下DOM树每一条路径的向中部数值的聚拢程度或者说是大多数路径的分布集中在什么取值的区域内,以便于接下来的分析工作。 利用方差的目的是:利用整体的统计特征来观察整体的路径波动性是怎么样的,
2017-06-25 16:34:39 4348
原创 python解析页面DOM树形成xpath列表,并计算DOM树的最大深度
最近对python的解析HTML的能力叹为观止,毕竟python这样强大的工具根本不缺乏解析html和xml的第三方库,我使用的是lxml当然还有其他比较好使的如:HTMLParser、BeautifulSoup等,鉴于我比较喜欢xpath这样的语法表达所以这里使用的也是lxml 要做的就是对于解析后的DOM树形成一个完整的xpath路径的列表,列表中的每一个路径都是从根节点到叶子节点的
2017-06-25 16:14:45 7611 11
转载 WINDOW10初步使用
16个Win10使用小技巧让你玩转Win10系统发表于2014年10月14日由MS酋长虽然Win10系统的许多界面和操作与Win7系统很相似,但是对于许多从WinXP直接升级到Win10系统的用户来说,还是有一定的上手难度的。那么这篇由太平洋电脑网发布的Win10小技巧汇总文章,可以让你快速上手和玩转Win10系统。Win10技巧1.窗口1/4分屏
2017-06-24 16:53:29 3521
原创 python解决sip与ptqt不兼容导致页面截图引擎无法运行问题
实验室的项目,中间用到了网页保存引擎,其中的一部分是要对给定的url的页面截图保存下来,用做后期的视觉图像方面的计算,之前一直使用的是pyqt4和sip模块配合来进行的,但是升级之后出现了无法兼容的问题,在这里查了一下相关的资料有提到说sip4.14.6这个版本的可以实现和pyqt4兼容工作,下午就实践了一下,亲测可行,使用的是虚拟机,系统是centos7这个是sip的下载地址:https:/
2017-06-22 18:15:41 4538
转载 pygame系列文章
转自小五义大牛的pygame系列文章,很不错pygame学习笔记(1)——安装及矩形、圆型画图 pygame是一个设计用来开发游戏的python模块,其实说白了和time、os、sys都是一样的东东。今天开始正式学习pygame,下载地址:www.pygame.org。下载后安装完成即可,在pygame的学习中,我使用了spe编辑器,感觉还不错。1、pyg
2017-06-22 11:12:03 5107 2
转载 域名系统
python网络编程学习笔记(4):域名系统转载请注明:@小五义 http://www.cnblogs.com/xiaowuyi一、什么是域名系统DNS 计算机域名系统 (DNS) 是由解析器以及域名服务器组成的。当我们在上网的时候,通常输入的是网址,其实这就是一个域名,而我们计算机网络上的计算机彼此之间只能用IP地址才能相互识别。再如,我们去一WEB服务器中请求一WE
2017-06-22 11:07:55 3567
转载 webpy框架
python网络编程学习笔记(10):webpy框架转载请注明:@小五义http://www.cnblogs.com/xiaowuyi django和webpy都是python的web开发框架。Django的主要目的是简便、快速的开发数据库驱动的网站。它强调代码复用,多个组件可以很方便的以“插件”形式服务于整个框架,Django有许多功能强大的第三方插件,你甚至可以很
2017-06-22 11:07:15 4503
转载 XML生成与解析(DOM、ElementTree)
python网络编程学习笔记(8):XML生成与解析(DOM、ElementTree)转载请注明:@小五义http://www.cnblogs.com/xiaowuyixml.dom篇 DOM是Document Object Model的简称,XML 文档的高级树型表示。该模型并非只针对 Python,而是一种普通XML 模型。Python 的 DOM 包是基于
2017-06-22 11:05:40 3381
转载 HTML和XHTML解析(HTMLParser、BeautifulSoup)
python网络编程学习笔记(7):HTML和XHTML解析(HTMLParser、BeautifulSoup)转载请注明:@小五义http://www.cnblogs.com/xiaowuyi在python中能够进行html和xhtml的库有很多,如HTMLParser、sgmllib、htmllib、BeautifulSoup、mxTidy、uTidylib等,这里介绍
2017-06-22 11:04:44 4061
转载 机器学习性能改善备忘单:32个帮你做出更好预测模型的技巧和窍门
作者 | Jason Brownlee 选文 | Aileen翻译 | 姜范波 校对 | 寒小阳机器学习最有价值(实际应用最广)的部分是预测性建模。也就是在历史数据上进行训练,在新数据上做出预测。 而预测性建模的首要问题是:如何才能得到更好的结果?这个备忘单基于本人多年的实践,以及我对顶级机器学习专家和大赛优胜者的
2017-06-21 15:45:58 3195
转载 TensorFlow深度学习,一篇文章就够了
作者: 陈迪豪,就职小米科技,深度学习工程师,TensorFlow代码提交者。TensorFlow深度学习框架Google不仅是大数据和云计算的领导者,在机器学习和深度学习上也有很好的实践和积累,在2015年年底开源了内部使用的深度学习框架TensorFlow。与Caffe、Theano、Torch、MXNet等框架相比,TensorFlow在Github上Fork数和Star
2017-06-21 15:44:42 3182
转载 机器学习常见算法个人总结
转自:http://blog.csdn.net/shingle_/article/details/52653752朴素贝叶斯参考[1]事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生AP(A∩B)=P(A)∗P(B|A)=P(B)∗P(A|B)所以有:P(A|B)=P(B|A)∗P(A)P(B)对于给出的待
2017-06-21 15:42:45 3111
hadoop-mysql-hbase环境部署套装.zip
2020-09-08
Ubuntu下gcc-7.5.0安装完整依赖.zip
2020-05-22
猫狗大战迁移学习项目.zip
2020-04-03
Microsoft Visual C++ 安装包【14.0和9.0】.rar
2019-09-05
pyltp安装包whl文件.rar
2019-08-08
中科院自动化所宗成庆-自然语言处理方法与应用.rar
2019-08-08
2018知识图谱发展报告.rar
2019-08-08
SQL SERVER查增改删,导入导出简便工具.rar
2019-08-08
Python数据分析与数据化运营.zip
2019-07-15
坦克大战tank.zip
2019-06-14
Docker技术入门与实战
2018-12-16
第一本Docker书(完整版)
2018-12-16
Deep Learning with PyTorch
2018-12-07
Python高效开发实战——Django、Tornado、Flask、Twisted
2018-11-27
python2和python3版本可用的OpenCV安装包
2018-11-16
Python计算机视觉编程(含源码)
2018-11-16
linecache安装包(python2和python3兼容)
2018-11-15
数据算法 Hadoop Spark大数据处理技巧
2018-10-31
sklearn超详细实践文档说明
2018-09-16
大规模网页相似度计算
2017-06-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人