Python
文章平均质量分 50
Tobefrank
这个作者很懒,什么都没留下…
展开
-
URLError 错误分析
1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子,先感受下它的风骚import urllib2requset = urllib2.Request('http://www.xxxxx.com')try: url转载 2016-12-13 13:18:08 · 1865 阅读 · 0 评论 -
python实现带验证码网站的自动登陆
本例所登录的某网站需要提供用户名,密码和验证码,在此使用了python的urllib2直接登录网站并处理网站的Cookie。Cookie的工作原理:Cookie由服务端生成,然后发送给浏览器,浏览器会将Cookie保存在某个目录下的文本文件中。在下次请求同一网站时,会发送该Cookie给服务器,这样服务器就知道该用户是否合法以及是否需要重新登录。Python提供了基本的转载 2016-12-15 18:07:40 · 1617 阅读 · 0 评论 -
(python)Fiddler+工具
1.为什么是Fiddler?抓包工具有很多,小到最常用的web调试工具firebug,达到通用的强大的抓包工具wireshark.为什么使用fiddler?原因如下:a.Firebug虽然可以抓包,但是对于分析http请求的详细信息,不够强大。模拟http请求的功能也不够,且firebug常常是需要“无刷新修改”,如果刷新了页面,所有的修改都不会保存。b.Wiresha转载 2016-12-15 18:13:31 · 6131 阅读 · 0 评论 -
通过抓包工具Fiddle找api接口
有时我们为了找到一些隐藏的接口,我们可以通过运行手机客户端app找出该应用中的api,通过抓包工具Fiddler可以轻松简单的找出你需要的接口.首先下载安装Fiddler,安装完成后打开:然后点击菜单栏的Tools,选择第一项Fiddler Options...:在弹出的窗口中的菜单栏中选择第三项Connections,勾选下图红框中的选项,点击右下角Ok:重启转载 2016-12-15 18:17:48 · 6411 阅读 · 0 评论 -
python 网页消重
神马是网页消重??1 在爬虫的过程中,我们常常会遇到主题内容相同的网页。2 由于标题不一样,内容有细微的偏差,也许我们的爬虫会误认为两个网页是不同的。俺就是网页消重技术!!网页消重技术是指对内容重复的网页进行识别,处理和合并,以节省网页数据库的存储空间和在网页,数据库上进行操作的时间的过程为神马要进行网页消重l它们原创 2016-12-15 18:36:15 · 692 阅读 · 0 评论 -
网页去重算法Simhash
Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指转载 2016-12-15 18:45:24 · 347 阅读 · 0 评论 -
当前用户对hadoop安装目录无足够权限
1、首先将hadoop解压到 /opt $sudo tar -zxvf hadoop.xx.xx.tar.gz 到达/opt下,然后建立hadoop文件夹,里面建立name和data两个文件夹 $sudo mkdir hadoop 到达/hadoop $sudo mkdir name $sudo mkdir data2、配置hadoop**core-size.xml原创 2016-12-21 18:33:30 · 9848 阅读 · 1 评论 -
hadoop 真实环境完全部署
前提 我们假设有三台机器分别为 master 192.168.0.106slave1 192.168.0.105slave2 192.168.0.105他们的普通用户名字分别为 master slave1 slave2安装hadoop集群真实环境大阶段分为三个步骤1.安装jdk2.安装hadoop3.安装ssh下面从这三个方面进行介绍保证成功安装以及部署原创 2016-12-22 09:32:18 · 841 阅读 · 0 评论 -
整站爬虫
原文地址: www.freebuf.com/news/topnews/96821.html0×00 介绍0×01 协议0×02 原则0×03 确立目标与分析过程0×04 动手0×05 sitemap爬虫0×06 web元素处理0×07 总结与预告0×00 介绍在互联网这个复杂的环境中,搜索引擎本身的爬虫,出于个人目的的爬虫,商业爬虫肆转载 2016-12-18 09:22:07 · 597 阅读 · 0 评论 -
ssh: connect to host localhost port 22: Connection refused
sudo apt-get install openssh-server原创 2016-12-19 20:45:38 · 402 阅读 · 0 评论 -
The authenticity of host 192.168.0.xxx can't be established. 的问题
执行ssh -o StrictHostKeyChecking=no 192.168.0.xxx 就OK原创 2016-12-19 20:46:21 · 3310 阅读 · 1 评论 -
推荐系统_FP-Tree算法
参考资料:http://blog.csdn.NET/sealyao/article/details/6460578更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍FP-Tree算法全称是FrequentPattern Tree算法,就是频繁模式树算法,他与Apriori算法一样也是用来挖掘频繁项集的,不过不同的转载 2016-12-27 19:35:42 · 1961 阅读 · 0 评论 -
python中编写无参数decorator
Python的 decorator 本质上就是一个高阶函数,它接收一个函数作为参数,然后,返回一个新函数。使用 decorator 用Python提供的 @ 语法,这样可以避免手动编写 f = decorate(f) 这样的代码。考察一个@log的定义:def log(f): def fn(x): print 'call ' + f.__name__ +原创 2017-03-07 17:47:47 · 289 阅读 · 0 评论 -
反爬虫策略
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十转载 2016-12-15 17:49:01 · 324 阅读 · 0 评论 -
ssh localhost 免密码登陆
每次搞ssh locahost无密码登陆都要查半天,这次记录一下,以备不时之需假设系统中有用户test,属于用户组test,1. 首先确认能否不输入口令就用ssh登录localhost:$ ssh localhost输出如下所示:2. 如果不输入口令就无法用ssh登陆localhost,执行下面的命令:$ ssh-keygen转载 2016-12-21 13:08:41 · 525 阅读 · 0 评论 -
sign_and_send_pubkey: signing failed: agent refused operation
ssh出错 sign_and_send_pubkey: signing failed: agent refused operationPosted on2016-05-26在服务器添加完公钥之后,ssh服务器然后报了这个错误sign_and_send_pubkey: signing failed: agent refused operation然后执行了以下命令才好。。eval原创 2016-12-21 12:54:50 · 4333 阅读 · 1 评论 -
Python 异步网络爬虫
Python 异步网络爬虫 本文主要讨论下面几个问题:什么是异步(Asynchronous)编程?为什么要使用异步编程?在 Python 中有哪些实现异步编程的方法?Python 3.5 如何使用 async/await 实现异步网络爬虫?所谓异步是相对于同步(Synchronous)的概念来说的,之所以容易造成混乱,是因为刚开始接触这两个概念时容易把同步看做是同时,而同时不是转载 2016-12-07 19:23:26 · 908 阅读 · 0 评论 -
python基础知识点
前言最近觉得 Python 太“简单了”,于是在师父川爷面前放肆了一把:“我觉得 Python 是世界上最简单的语言!”。于是川爷嘴角闪过了一丝轻蔑的微笑(内心 OS:Naive!,作为一个 Python 开发者,我必须要给你一点人生经验,不然你不知道天高地厚!)于是川爷给我了一份满分 100 分的题,然后这篇文章就是记录下做这套题所踩过的坑。1.列表生成器描述转载 2016-12-07 19:19:33 · 249 阅读 · 0 评论 -
Python最差实践
Python最差实践最近在看一些陈年老系统,其中有一些不好的代码习惯遗留下来的坑;加上最近自己也写了一段烂代码导致服务器负载飙升,所以就趁此机会总结下我看到过/写过的自认为不好的Python代码习惯,时刻提醒自己远离这些“最差实践”,避免挖坑。下面所举的例子中,有一部分会造成性能问题,有一部分会导致隐藏bug,或日后维护、重构困难,还有一部分纯粹是我认为不够python转载 2016-12-07 19:18:12 · 274 阅读 · 0 评论 -
让你快速学习python基础笔记001(一起动手实践)
1 python一切皆为对象,因为现实包含了一系列的数据和操作这些数据的方法的一个整体,就叫作对象。自行车属性:手刹车,轮胎,脚踏板方法:如何前进的方法,控制停止的方法,控制方向实际内容 男人与女人的恋爱男人与男人的恋爱女人与女人的恋爱方法1:一见钟情原创 2016-12-07 21:00:32 · 226 阅读 · 0 评论 -
让你快速学习python基础笔记002(一起动手实践)
#coding:utf-8# 字符串认知与应用### 认知1.字符串概念## 认知2.ascii unicode utf8到底是啥### 一.len之需注意### 二.转义符让文本更好处理## 要转义的字符前面加个反斜杠### 三.字符串前面跟着的小尾巴到底是什么东西### 四.访问子字符串,序列来了。## 成员有是有序排列的,可以通过下标偏移量访问到原创 2016-12-07 22:35:22 · 198 阅读 · 0 评论 -
让你快速学习python基础笔记003(一起动手实践)
python 基本数据类型讲解(3\2)一:类型1 不可变数据类型string,int ,tuple 常量字符串不可变之再探string[1] = 'new_one' can?2 可变数据类型变量dict list二 再研究字符串序列到底是什么1 三个符合的区别 '',"",""" """2 偏移量从0开始3 如何修改字符串之原创 2016-12-08 21:31:28 · 233 阅读 · 0 评论 -
python linecache标准库基础学习
python linecache标准库基础学习#python标准库基础之:linecacge:高效读取文本文件#说明与作用"""可以从文件或者导入python模块获取文件,维护一个结果缓存,从而可以更高效地从相同文件读取多行文本;此模块会在python标准库的其他部分中用到,缓存实现将在内存中保存文件内容(解析为单独的行).API通过索引一个列表返回所请求的转载 2016-12-08 21:33:47 · 632 阅读 · 0 评论 -
selenium+ Phantomjs爬取动态网页
对于动态加载,Selenium+Phantomjs的强大打开网页查看网页源码(注意不是检查元素)会发现要爬取的信息并不在源码里面。Selenium+Phantomjs的强大一方面就在于能将完整的源码抓取到,也就是说,从网页源码无法通过解析得到数据。# -*- coding: utf-8 -*-import xlsxwriterimport sysreload(sys)sy原创 2016-12-15 22:46:55 · 2098 阅读 · 0 评论 -
UnicodeEncodeError: 'ascii' codec can't encode characters in position问题
解决UnicodeEncodeError: 'ascii' codec can't encode characters in position问题 解决方法1:使用cmd运行python程序,能正常显示结果解决方法2:在开头加上import sysreload(sys)sys.setdefau原创 2016-12-15 22:48:36 · 345 阅读 · 0 评论 -
mongodb dbexit: really exiting now
启动时异常,如果遇到这种情况。就删除 --dbpath(比如 d:\MongoDB\data\) 目录下的 _tmp 和 mongodb.lock 文件 , 然后重启就可以了。(不会影响数据)如果还有其他方法能够更好的解决此问题,请留言。 互相学习下。原创 2016-12-15 23:17:13 · 1632 阅读 · 0 评论 -
Collection object is not callable error with PyMongo
Collection object is not callable error with PyMongodown vote The problem is that you are following the tutorial from the current release documentation but actually have Py原创 2016-12-15 23:55:39 · 3663 阅读 · 0 评论 -
ssh免密码登录机器(使用公钥和秘钥进行加密来实现)
ssh免密码登录机器(使用公钥和秘钥进行加密来实现)ssh 无密码登录要使用公钥与私钥。linux下可以用用ssh-keygen生成公钥/私钥对,下面我以CentOS为例。登录的原理: 有机器A(192.168.1.155),B(192.168.1.181)。现想A通过ssh免密码登录到B。首先以root账户登陆为例。1.首先我们需要在A机器转载 2016-12-21 12:53:12 · 338 阅读 · 0 评论 -
爬虫算法之PageRank
PageRank对网页排名的算法,曾是Google发家致富的法宝。以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理。一、什么是pagerank PageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。Page转载 2017-07-19 12:00:44 · 1136 阅读 · 0 评论