web页面计算
web页面的爬取、解析、存储、特征提取、相似性计算、恶意页面检测等
Together_CZ
欲戴其冠,必承其重
展开
-
python实现切割url得到域名、协议、主机名等各个字段
有一个需求就是需要对url进行进一步的划分得到详细的各个字段信息,下面是简单的实现:#!/usr/bin/python# -*- coding: UTF-8 -*-'''__Author__:沂水寒城功能: 对URL进行分割,基于urlparse, publicsuffix, urllib编写'''from urlparse import urlparseimport c原创 2017-11-13 15:18:06 · 8744 阅读 · 2 评论 -
python抽取html中的链接
今天有一个需求就是先得从一批html中抽取出来所有的url,之后匹配出来符合要求的url 这里先简单写一下第一步 第一步:从html抽取url的做法如下#env/usr/bin python#encoding:utf-8'''功能:抽取html中的链接'''import redef find_all(sourcefile='b原创 2017-11-09 16:41:25 · 6614 阅读 · 0 评论 -
python模块之feedparser学习使用
今天在看书的时候无意间发现了一个号东西就是feedparser模块,feedparser 号称是一个 universal feed parser,使用它我们可轻松地实现从任何 RSS 或 Atom 订阅源得到标题、链接和文章的条目了,这个号称并不是说的话,是因为这个模块真的很强大,解压打开后可以直接使用: python setup.py install 安装使用,也可以使用:p原创 2017-07-21 15:56:45 · 22181 阅读 · 0 评论 -
python实现对解析之后的DOM进行层次化处理升序输出
最近在着手做html的相关处理工作,因为前期的想法偏差,使用滑窗机制得到的签名居然和网页文本得到的签名是一模一样的,我调试了很多次都是这样,最终只好暂时搁浅,不明白是哪里出了问题,现在的做法是回归HTML的解析,得到页面的DOM树来进行下一步计算,不使用浏览器内嵌的开源引擎Webkit进行渲染,因为那样带来的结果就是时间代价太高了,对于得到的DOM树可以有进一步的处理得到每一层次的结点进行计算,这原创 2017-06-15 10:05:18 · 3749 阅读 · 1 评论 -
python使用lxml库对解析后的DOM树形成的xpath计算得到平均值、中位数、方差
这篇文章的内容是接着上一篇的内容继续的,上一篇文章中简单的得到了DOM的最大深度,这里我要接着对得到的数据进行计算,分别得到均值、中位数、方差。 利用均值和中位数的目的是:利用统计的特征来衡量一下DOM树每一条路径的向中部数值的聚拢程度或者说是大多数路径的分布集中在什么取值的区域内,以便于接下来的分析工作。 利用方差的目的是:利用整体的统计特征来观察整体的路径波动性是怎么样的,原创 2017-06-25 16:34:39 · 4349 阅读 · 0 评论 -
python解析页面DOM树形成xpath列表,并计算DOM树的最大深度
最近对python的解析HTML的能力叹为观止,毕竟python这样强大的工具根本不缺乏解析html和xml的第三方库,我使用的是lxml当然还有其他比较好使的如:HTMLParser、BeautifulSoup等,鉴于我比较喜欢xpath这样的语法表达所以这里使用的也是lxml 要做的就是对于解析后的DOM树形成一个完整的xpath路径的列表,列表中的每一个路径都是从根节点到叶子节点的原创 2017-06-25 16:14:45 · 7613 阅读 · 11 评论 -
python使用lxml解析html获取页面内所有叶子节点的xpath路径
因为需要使用叶子节点的路径来作为特征,但是原始的lxml模块解析之后得到的却是整个页面中所有节点的xpath路径,不是我们真正想要的形式,所以就要进行相关的处理才行了,差了很多网上的博客和文档也没有找到一个是关于输出html中全部叶子节点的API接口或者函数,也可能是自己没有那份耐心,没有找到合适的资源,只好放弃了寻找,但是这并不说明没有其他的方法了,在对页面全部节点的xpath输出之后观察得到的原创 2017-06-30 22:53:38 · 8120 阅读 · 17 评论 -
python使用BeautifulSoup的prettify功能来处理HTML文档,之后使用Levenshtein编辑距离计算文档间的相似度
字符串的处理可谓是一个老生常谈的话题了,处理的方法也是有很多的积累的,利用字符串的匹配来计算文档整体之间的相似度是一个惯用的方法,但里面还有很多具体的细节需要注意,今天在使用Levenshtein距离的时候遇到了一个问题,不太知道该如何衡量了,这里先说一下做的事情: 首先使用BeautifulSoup来解析html文档,去除除了html文档非标签节点之外的内容,之后使用prettify函原创 2017-06-27 16:28:12 · 5515 阅读 · 2 评论