python
文章平均质量分 84
wukk007
这个作者很懒,什么都没留下…
展开
-
转载:[Python]网络爬虫(一):抓取网页的含义和URL基本构成
一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如转载 2013-08-24 10:08:46 · 1067 阅读 · 0 评论 -
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlo转载 2013-08-24 10:09:58 · 1211 阅读 · 0 评论 -
[Python]网络爬虫(三):异常的处理和HTTP状态码的分类
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。 1.URLError通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不转载 2013-08-24 10:11:02 · 965 阅读 · 0 评论 -
[Python]网络爬虫(四):Opener与Handler的介绍和实例应用
在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同转载 2013-08-24 10:28:55 · 1131 阅读 · 0 评论 -
正则表达式
原文出处:http://www.amk.ca/python/howto/regex/原文作者:A.M. Kuchling (amk@amk.ca)授权许可:创作共用协议翻译人员:FireHare校对人员:Leal适用版本:Python 1.5 及后续版本摘要本文是通过Python的 re 模块来使用正则表达式的一个入门教程,和库参考手册的对应章节相比,更为浅显易原创 2013-09-01 20:01:22 · 822 阅读 · 0 评论 -
python爬虫教程大全
关于python爬虫这方面知识,在网络上有一些教程、文章,很有价值,能够带领新手快速入门。在这里我把自己学习时找到的一些教程列出来,与大家一起分享,欢迎补充!爬虫《一只小爬虫》《一只并发的小爬虫》《Python与简单网络爬虫的编写》《Python写爬虫——抓取网页并解析HTML》《[Python]网络爬虫(一):抓取网页的含义和URL基本构成》《[Python]网络转载 2013-09-01 21:04:35 · 1188 阅读 · 0 评论 -
新浪微博Python SDK笔记——发微博(一) .
上一节中已经安装了Python SDK,可以在程序中引入weibo模块编写微博程序了。下面的程序的功能就是利用该模块发一条新微博,先开具体的代码:[python] view plaincopyprint?"FONT-SIZE: 14px">#! /usr/bin/python """ 引入Python SDK的包 """ import weibo ""转载 2013-09-24 22:57:48 · 1070 阅读 · 0 评论 -
逻辑回归 与梯度算法
逻辑回归(logistic regression)1. sigmoid 函数:梯度上升(Gradient Ascent)与 梯度下降(Gradient Descent): 2. 循环迭代的梯度上升计算系数w:12345678910原创 2013-10-15 09:55:48 · 1943 阅读 · 0 评论 -
学习Machine Leaning In Action(四):逻辑回归
第一眼看到逻辑回归(Logistic Regression)这个词时,脑海中没有任何概念,读了几页后,发现这非常类似于神经网络中单个神经元的分类方法。书中逻辑回归的思想是用一个超平面将数据集分为两部分,这两部分分别位于超平面的两边,且属于两个不同类别(和SVM的想法有些相似),如下图:因此,一般的逻辑回归只能处理两分类问题,同时两个类别必须是线性可分的。对于线性不可分问原创 2013-10-15 10:22:48 · 856 阅读 · 0 评论 -
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies .
对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,我们介绍了一个可以帮助简化打开 位于本地和Web上的HTML文档的Python模块。在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的转载 2013-10-16 20:10:43 · 2211 阅读 · 0 评论 -
利用Python抓取和解析网页 .
对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python转载 2013-10-16 19:20:03 · 2082 阅读 · 0 评论 -
利用python实现新浪微博爬虫 .
新版新浪微博模拟登陆请看:http://blog.csdn.net/monsion/article/details/8656690本文后面的解决动态加载的程序依然有效重新编辑了一次,出了点儿问题第一个模块,模拟登陆sina微博,创建weiboLogin.py文件,输入以下代码:[python] view plaincopyprint?#! /usr/转载 2013-10-16 20:58:47 · 2776 阅读 · 0 评论 -
python正则表达式匹配中文
今天遇到一个问题,想用正则表达式匹配一段文本:比如:几个、几样、几招、几种1个,2种,3样……20个等以及一个,二种,三样……二十样等起初是这样写的,一直不对。。[plain] view plaincopyprint?几[种样款个类招]+? [0-9]+[种样款个类招]+? [一二三四五六七八九十]+[种样款个类招]+? 几[种样款个类转载 2013-10-16 21:05:01 · 1013 阅读 · 0 评论 -
python 登录人人网。。。
对于社交网络的爬虫,有一个很大的问题就是处理登陆。对于认证模块,有很多方法,获取cookie伪装成为浏览器。再或者调用第三方网站API,进行 Oauth认证。下面针对 renren 网,通过使用 cookie 方式登录。python 有一个标准模块 cookielib。里面有一个 CookieJar类,可以生成一个获取远程cookie的对象实例。 用法如下转载 2013-10-23 20:28:35 · 837 阅读 · 0 评论 -
新浪微博API Oauth2.0 认证。。。
本意是在注销账号前保留之前的一些数据。决定用python 爬取收藏。可是未登录无法爬取。想要登录有两种办法,伪造浏览器登录。第二就是注册新浪开发者账号,通过Oauth认证调用其API。Oauth 的原理搞了一天才明白。很多网站都提供多语言的Oauth。而 1.0 和 2.0 的最大差别就是多了一个 callback 回调页面。关于这方面的说明很少,搞得我一头雾水折腾了好久。总算明白了。转载 2013-10-23 20:05:35 · 1694 阅读 · 0 评论 -
[Python ] python中文件的基本操作
原文地址: http://blog.163.com/qimeizhen8808@126/ 这女孩写的挺好,有值得学习的地方。 1) 文件的打开和创建,关闭 a)文件的打开和创建主要有两个open()和file()两个方法。它们的功能是提供了初始化输入/输出(I/O)通用接口. 格式:file(name, mode [, buffering]] )name:文件名称,相对路转载 2013-10-30 10:15:24 · 817 阅读 · 0 评论 -
一个方便的读取GML文件 方法
今天为了读取出 .GML的基准图的边列表,从网上搜索了一些方法,觉得都比较麻烦,虽然看到networkx里可以读取GML格式,但是需要安装解析包,而我的机子是64位系统,只看到了32位的解析包。 后来看到说igraph也能读取GML格式,于是就试了下,果然igraph读取GML格式极为方便。仅用了两句就搞定了from igraph import *g=Graph.Read_GML('转载 2013-11-01 10:14:27 · 7457 阅读 · 0 评论 -
networkx画中文节点 networkx画中文节点
在这之前,也曾经想过用networkx画中文节点图,但是上网搜了下,感觉挺麻烦的,就一直没画。这次导师要我画一个中文图,尝试了gephi画,可是发现用“文件”菜单下的“打开”可以直接读取csv格式,并且在gephi里选择显示中文,确实可以,但是老师要求的图是带权图,这种方式不能带权,自己手工输入嫌麻烦就放弃了;于是用了gephi的读取电子表格形式可以读取权(但一定要把csv格式设置为utf-8格式转载 2013-11-01 10:16:31 · 9238 阅读 · 1 评论 -
EM算法及其应用(代码)
最近上模式识别的课需要做EM算法的作业,看了机器学习公开课及网上的一些例子,总结如下:(中间部分公式比较多,不能直接粘贴上去,为了方便用了截图,请见谅)概要适用问题EM算法是一种迭代算法,主要用于计算后验分布的众数或极大似然估计,广泛地应用于缺损数据、截尾数据、成群数据、带有讨厌参数的数据等所谓不完全数据的统计推断问题。优缺点优点:EM算法简单且稳定,迭代能保证观察数据对数后验转载 2014-01-01 15:19:31 · 11569 阅读 · 1 评论 -
Scrapy——可配置的爬虫
简介 Scrapy是一个爬虫程序的框架,用来爬取网页内容和结构化内容的提取。所谓框架,就是可以自己定制一个针对特定网站的爬虫,定制的方法仅仅是需要添加一些简单的规则即可。很多大部分爬虫任务的公共部分是内部写好的,不需要开发人员重新写,减少重复开发。安装 Scrapy的官方网站:http://scrapy.org/ Scrapy的技术转载 2014-01-07 10:56:10 · 1413 阅读 · 0 评论 -
python 与算法
关于sage/python/maxima的介绍参看:study3_开源科学软件简介1、算法算法导论学习笔记:http://www.wutianqi.com/?cat=515杂项:http://blog.csdn.net/v_july_v/article/details/6543438随机化算法:http://www.wutianqi.com/?p=1742蒙特卡罗、原创 2014-01-09 15:00:50 · 1145 阅读 · 0 评论 -
Python自动化测试 (二) ConfigParser模块读写配置文件
ConfigParser 是Python自带的模块, 用来读写配置文件, 用法及其简单。 直接上代码,不解释,不多说。 配置文件的格式是: []包含的叫section, section 下有option=value这样的键值 配置文件 test.conf [section1]name = tankage = 28[section2]转载 2014-01-10 21:19:21 · 637 阅读 · 0 评论 -
Eclipse+Pydev构建Python的开发环境
1、安装Eclipse环境从http://java.sun.com/javase/downloads/index.jsp下载Java虚拟机Jdk从http://www.eclipse.org/downloads/下载Eclipse这两项的具体安装方法就不详细叙述了(网上太多了)。2、安装Python的支持 从http://www.python.org/download/下载对应版本转载 2014-01-10 08:44:24 · 1091 阅读 · 0 评论 -
python3.3.2中的关键字如下:
The following identifiers are used as reserved words, or keywords of the language, and cannot be used as ordinary identifiers. They must be spelled exactly as written here:False class原创 2014-01-11 16:21:26 · 602 阅读 · 0 评论 -
Python自动化测试 (一) Eclipse+Pydev 搭建开发环境
C#之所以容易让人感兴趣,是因为安装完Visual Studio, 就可以很简单的直接写程序了,不需要做如何配置。 对新手来说,这是非常好的“初体验”, 会激发初学者的自信和兴趣。而有些语言的开发环境的配置非常麻烦, 这让新手有挫败感,没有好的“初体验”,可能会对这门语言心存敬畏, 而失去兴趣。作为一个.NET程序员, 用惯了Visual Studio。 Visual Studi转载 2014-01-10 19:37:45 · 738 阅读 · 0 评论 -
python+pyside+py2exe+inno setup 开发图形界面程序
基本思想: 1 利用pyside开发python版图形界面程序(利用Qt开发图形界面程序) 2 利用py2exe将python脚本转换成windows上的可独立执行的可执行程序(不需要安装python和Qt) 3 将exe程序和相关库打包成安装程序。 1 pyside 安装pyside后,~\Python27\Lib\转载 2014-01-10 21:51:21 · 2227 阅读 · 0 评论 -
python与复杂科学(2013-09-16 15:28:21)转载▼
二十年前我希望找到一本“复杂科学”的书,现在有了我可能没有时间看了:http://www.greenteapress.com/探索复杂科学:http://www.greenteapress.com/complexity/index.html有两本Think in python:How to think like a computer scientist:(都是遵循Common Cr转载 2014-01-13 14:52:37 · 845 阅读 · 0 评论 -
Python基础教程 -----good
Python基础教程网址:http://www.w3cschool.cc/python/python-cgi.html原创 2014-01-15 15:31:03 · 667 阅读 · 0 评论 -
Python汉字编码经验总结
Python汉字编码经验总结 每次处理汉字,总要出现一些意外。最容易出现的问题有:从输入对话框获取的包含汉字的字符串,写入数据库后再读出来,变成乱码。 从文件对话框中获取的文件路径,不能被处理文件的模块接受。 使用Inno打包程序,不能使用中文路径。Python中的字符串有str和unicode两种形式,两者之间不能连接,也不能比较。汉字编码,常见转载 2014-01-17 20:53:25 · 1326 阅读 · 0 评论 -
爬虫原理
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。下面一系列文章将对爬虫技术做详细的介绍,希望大家最终能够做出自己喜爱的爬虫。网络爬虫技术随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,百度,Yahoo!和Goog转载 2014-02-13 14:45:23 · 925 阅读 · 0 评论 -
(python学习心得) 字符编码转换
现在做的一个小工具,功能是:server端抓取网页内感兴趣的内容,传送给客户端(手机设备)。统一了传送内容的编码格式是utf-8的。 在抓取到的页面中,大部分都是gb2312的,因此需要转码为utf-8格式字串。思路是先将origin_str转换成unicode字符串mid_str,然后用目标码制对其编码可以得到result_str. 在这里记录下转码过程: 1:原创 2014-02-16 11:14:24 · 655 阅读 · 0 评论 -
AttributeError: 'module' object has no attribute 'Frame' 解决方法
最近对wxpython的GUI编程试用了下,试用过程中出现报错:[python] view plaincopyprint?Traceback (most recent call last): File "E:\study\python\wxpython1\stdout_err.py", line 7, in class Frame(wx.F转载 2014-02-28 20:38:02 · 5195 阅读 · 0 评论 -
Scrapy——可配置的爬虫
转自:http://bbs.cnpameng.com/bbs/forum.php?mod=viewthread&tid=12&extra=page%3D1Scrapy——可配置的爬虫简介 Scrapy是一个爬虫程序的框架,用来爬取网页内容和结构化内容的提取。所谓框架,就是可以自己定制一个针对特定网站的爬虫,定制的方法仅仅是需要添加一些简单的规则即可。很多大部分转载 2014-02-18 12:02:24 · 2224 阅读 · 0 评论 -
wxPython
目录欢迎使用wxPython开始wxPython创建最小的空的wxPython程序导入wxPython使用应用程序和框架工作扩展这个最小的空的wxPython程序创建最终的hello.py程序1. 欢迎使用wxPython下面是一个例子,它创建了一个有一个文本框的窗口用来显示鼠标的位置。 切换行号显示切换行号显示 1 #!/b转载 2014-02-28 20:15:49 · 1566 阅读 · 0 评论 -
将Python程序打包成可执行文件
签:休闲python职场原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://sucre.blog.51cto.com/1084905/382733Python编程语言是一款功能强大的免费开源的通用型计算机程序应用语言,对于经验丰富的开发人员来说,掌握这样一款语言在其程序开发中是一个比较重要的选择。我们转载 2014-03-01 14:49:00 · 847 阅读 · 0 评论 -
一位大牛整理的Python资源
来自http://blog.sina.com.cn/s/blog_5d236e060100ep4y.html~type=v5_one&label=rela_nextarticle一个论坛:http://www.python-forum.org/pythonforum/index.php一 python文章索引Total number is :102python基转载 2014-03-12 14:40:36 · 1034 阅读 · 0 评论 -
Python 自省指南
什么是自省?在日常生活中,自省(introspection)是一种自我检查行为。自省是指对某人自身思想、情绪、动机和行为的检查。伟大的哲学家苏格拉底将生命中的大部分时间用于自我检查,并鼓励他的雅典朋友们也这样做。他甚至对自己作出了这样的要求:“未经自省的生命不值得存在。”(请参阅参考资料以获取关于苏格拉底更多信息的链接。) 在计算机编程中,自省是指这种能力:检查某些事物以确转载 2014-03-12 20:39:31 · 720 阅读 · 0 评论 -
文件操作之遍历目录
Python的os模块,包含了普遍的操作系统功能,这里主要学习与路径相关的函数:os.listdir(dirname):列出dirname下的目录和文件os.getcwd():获得当前工作目录os.curdir:返回当前目录('.')os.chdir(dirname):改变工作目录到dirnameos.path.isdir(name):判断name是不是一个目录,name不是目转载 2014-03-13 16:26:17 · 669 阅读 · 0 评论 -
python用zipfile模块打包文件或是目录、解压zip文件实例
转自:http://wangwei007.blog.51cto.com/68019/1045577 python用zipfile模块打包文件或是目录、解压zip文件实例,不过好像解压对中文的支持不太好,不包含中文的话没有问题,有懂的朋友可以帮助完善一下。 #!/usr/bin/env python # -*- coding: utf-8 -*- from zipfi转载 2014-03-13 17:21:41 · 5258 阅读 · 1 评论 -
提取中文词组
提取中文词组原文从如下的txt文件中提取【】中的词组。【挨边】āi∥biān(~儿)①动靠着边缘:上了大路,要挨着边儿走。②动接近(某数,多指年龄):我六十~儿了。③形接近事实或事物应有的样子:你说的太不~儿!【挨近】āi∥jìn动靠近:你~我—点儿|两家挨得很近。【挨批】ái∥pī动受到批评或批判:挨了一顿批。【挨宰】ái∥zǎi〈口〉动比喻购物或接受服务时被索取高价原创 2014-03-07 18:52:57 · 2259 阅读 · 0 评论