python_wukk007的博客-CSDN博客

python

关注

文章平均质量分 84

关注数：文章数：97 文章阅读量：274062 文章收藏量：208

作者: wukk007

这个作者很懒，什么都没留下…

展开

转载：[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如

转载 2013-08-24 10:08:46 · 1067 阅读 · 0 评论
[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容

所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。在Python中，我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlo

转载 2013-08-24 10:09:58 · 1211 阅读 · 0 评论
[Python]网络爬虫（三）：异常的处理和HTTP状态码的分类

先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时，产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类，通常在特定HTTP URLs中产生。 1.URLError通常，URLError在没有网络连接(没有路由到特定服务器)，或者服务器不

转载 2013-08-24 10:11:02 · 965 阅读 · 0 评论
[Python]网络爬虫（四）：Opener与Handler的介绍和实例应用

在开始后面的内容之前，先来解释一下urllib2中的两个个方法：info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl()：这个返回获取的真实的URL，这个很有用，因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同

转载 2013-08-24 10:28:55 · 1131 阅读 · 0 评论
正则表达式

原文出处：http://www.amk.ca/python/howto/regex/原文作者：A.M. Kuchling （amk@amk.ca）授权许可：创作共用协议翻译人员：FireHare校对人员：Leal适用版本：Python 1.5 及后续版本摘要本文是通过Python的 re 模块来使用正则表达式的一个入门教程，和库参考手册的对应章节相比，更为浅显易

原创 2013-09-01 20:01:22 · 822 阅读 · 0 评论
python爬虫教程大全

关于python爬虫这方面知识，在网络上有一些教程、文章，很有价值，能够带领新手快速入门。在这里我把自己学习时找到的一些教程列出来，与大家一起分享，欢迎补充！爬虫《一只小爬虫》《一只并发的小爬虫》《Python与简单网络爬虫的编写》《Python写爬虫——抓取网页并解析HTML》《[Python]网络爬虫（一）：抓取网页的含义和URL基本构成》《[Python]网络

转载 2013-09-01 21:04:35 · 1188 阅读 · 0 评论
新浪微博Python SDK笔记——发微博（一） .

上一节中已经安装了Python SDK，可以在程序中引入weibo模块编写微博程序了。下面的程序的功能就是利用该模块发一条新微博，先开具体的代码：[python] view plaincopyprint?"FONT-SIZE: 14px">#! /usr/bin/python """ 引入Python SDK的包 """ import weibo ""

转载 2013-09-24 22:57:48 · 1070 阅读 · 0 评论
逻辑回归与梯度算法

逻辑回归（logistic regression）1. sigmoid 函数：梯度上升（Gradient Ascent）与梯度下降（Gradient Descent）： 2. 循环迭代的梯度上升计算系数w：12345678910

原创 2013-10-15 09:55:48 · 1943 阅读 · 0 评论
学习Machine Leaning In Action（四）：逻辑回归

第一眼看到逻辑回归（Logistic Regression）这个词时，脑海中没有任何概念，读了几页后，发现这非常类似于神经网络中单个神经元的分类方法。书中逻辑回归的思想是用一个超平面将数据集分为两部分，这两部分分别位于超平面的两边，且属于两个不同类别（和SVM的想法有些相似），如下图：因此，一般的逻辑回归只能处理两分类问题，同时两个类别必须是线性可分的。对于线性不可分问

原创 2013-10-15 10:22:48 · 856 阅读 · 0 评论
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies .

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过 Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中，我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中，我们将论述如何使用Python模块来迅速解析在HTML文件中的

转载 2013-10-16 20:10:43 · 2211 阅读 · 0 评论
利用Python抓取和解析网页 .

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先，我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块，然后，我们论述如何使用Python

转载 2013-10-16 19:20:03 · 2082 阅读 · 0 评论
利用python实现新浪微博爬虫 .

新版新浪微博模拟登陆请看：http://blog.csdn.net/monsion/article/details/8656690本文后面的解决动态加载的程序依然有效重新编辑了一次，出了点儿问题第一个模块，模拟登陆sina微博，创建weiboLogin.py文件，输入以下代码：[python] view plaincopyprint?#! /usr/

转载 2013-10-16 20:58:47 · 2776 阅读 · 0 评论
python正则表达式匹配中文

今天遇到一个问题，想用正则表达式匹配一段文本：比如：几个、几样、几招、几种1个，2种，3样……20个等以及一个，二种，三样……二十样等起初是这样写的，一直不对。。[plain] view plaincopyprint?几[种样款个类招]+? [0-9]+[种样款个类招]+? [一二三四五六七八九十]+[种样款个类招]+? 几[种样款个类

转载 2013-10-16 21:05:01 · 1013 阅读 · 0 评论
python 登录人人网。。。

对于社交网络的爬虫，有一个很大的问题就是处理登陆。对于认证模块，有很多方法，获取cookie伪装成为浏览器。再或者调用第三方网站API，进行 Oauth认证。下面针对 renren 网，通过使用 cookie 方式登录。python 有一个标准模块 cookielib。里面有一个 CookieJar类，可以生成一个获取远程cookie的对象实例。用法如下

转载 2013-10-23 20:28:35 · 837 阅读 · 0 评论
新浪微博API Oauth2.0 认证。。。

本意是在注销账号前保留之前的一些数据。决定用python 爬取收藏。可是未登录无法爬取。想要登录有两种办法，伪造浏览器登录。第二就是注册新浪开发者账号，通过Oauth认证调用其API。Oauth 的原理搞了一天才明白。很多网站都提供多语言的Oauth。而 1.0 和 2.0 的最大差别就是多了一个 callback 回调页面。关于这方面的说明很少，搞得我一头雾水折腾了好久。总算明白了。

转载 2013-10-23 20:05:35 · 1694 阅读 · 0 评论
[Python ] python中文件的基本操作

原文地址： http://blog.163.com/qimeizhen8808@126/ 这女孩写的挺好，有值得学习的地方。 1) 文件的打开和创建，关闭 a)文件的打开和创建主要有两个open()和file()两个方法。它们的功能是提供了初始化输入/输出(I/O)通用接口. 格式：file(name, mode [, buffering]] )name:文件名称，相对路

转载 2013-10-30 10:15:24 · 817 阅读 · 0 评论
一个方便的读取GML文件方法

今天为了读取出 .GML的基准图的边列表，从网上搜索了一些方法，觉得都比较麻烦，虽然看到networkx里可以读取GML格式，但是需要安装解析包，而我的机子是64位系统，只看到了32位的解析包。后来看到说igraph也能读取GML格式，于是就试了下，果然igraph读取GML格式极为方便。仅用了两句就搞定了from igraph import *g=Graph.Read_GML('

转载 2013-11-01 10:14:27 · 7457 阅读 · 0 评论
networkx画中文节点 networkx画中文节点

在这之前，也曾经想过用networkx画中文节点图，但是上网搜了下，感觉挺麻烦的，就一直没画。这次导师要我画一个中文图，尝试了gephi画，可是发现用“文件”菜单下的“打开”可以直接读取csv格式，并且在gephi里选择显示中文，确实可以，但是老师要求的图是带权图，这种方式不能带权，自己手工输入嫌麻烦就放弃了；于是用了gephi的读取电子表格形式可以读取权（但一定要把csv格式设置为utf-8格式

转载 2013-11-01 10:16:31 · 9238 阅读 · 1 评论
EM算法及其应用（代码）

最近上模式识别的课需要做EM算法的作业，看了机器学习公开课及网上的一些例子，总结如下：（中间部分公式比较多，不能直接粘贴上去，为了方便用了截图，请见谅）概要适用问题EM算法是一种迭代算法，主要用于计算后验分布的众数或极大似然估计，广泛地应用于缺损数据、截尾数据、成群数据、带有讨厌参数的数据等所谓不完全数据的统计推断问题。优缺点优点：EM算法简单且稳定，迭代能保证观察数据对数后验

转载 2014-01-01 15:19:31 · 11569 阅读 · 1 评论
Scrapy——可配置的爬虫

简介 Scrapy是一个爬虫程序的框架，用来爬取网页内容和结构化内容的提取。所谓框架，就是可以自己定制一个针对特定网站的爬虫，定制的方法仅仅是需要添加一些简单的规则即可。很多大部分爬虫任务的公共部分是内部写好的，不需要开发人员重新写，减少重复开发。安装 Scrapy的官方网站：http://scrapy.org/ Scrapy的技术

转载 2014-01-07 10:56:10 · 1413 阅读 · 0 评论
python 与算法

关于sage/python/maxima的介绍参看：study3_开源科学软件简介1、算法算法导论学习笔记：http://www.wutianqi.com/?cat=515杂项：http://blog.csdn.net/v_july_v/article/details/6543438随机化算法：http://www.wutianqi.com/?p=1742蒙特卡罗、

原创 2014-01-09 15:00:50 · 1145 阅读 · 0 评论
Python自动化测试 (二) ConfigParser模块读写配置文件

ConfigParser 是Python自带的模块，用来读写配置文件，用法及其简单。直接上代码，不解释，不多说。配置文件的格式是： []包含的叫section, section 下有option=value这样的键值配置文件 test.conf [section1]name = tankage = 28[section2]

转载 2014-01-10 21:19:21 · 637 阅读 · 0 评论
Eclipse+Pydev构建Python的开发环境

1、安装Eclipse环境从http://java.sun.com/javase/downloads/index.jsp下载Java虚拟机Jdk从http://www.eclipse.org/downloads/下载Eclipse这两项的具体安装方法就不详细叙述了（网上太多了）。2、安装Python的支持从http://www.python.org/download/下载对应版本

转载 2014-01-10 08:44:24 · 1091 阅读 · 0 评论
python3.3.2中的关键字如下：

The following identifiers are used as reserved words, or keywords of the language, and cannot be used as ordinary identifiers. They must be spelled exactly as written here:False class

原创 2014-01-11 16:21:26 · 602 阅读 · 0 评论
Python自动化测试 (一) Eclipse+Pydev 搭建开发环境

C#之所以容易让人感兴趣，是因为安装完Visual Studio, 就可以很简单的直接写程序了，不需要做如何配置。对新手来说，这是非常好的“初体验”，会激发初学者的自信和兴趣。而有些语言的开发环境的配置非常麻烦，这让新手有挫败感，没有好的“初体验”，可能会对这门语言心存敬畏, 而失去兴趣。作为一个.NET程序员，用惯了Visual Studio。 Visual Studi

转载 2014-01-10 19:37:45 · 738 阅读 · 0 评论
python+pyside+py2exe+inno setup 开发图形界面程序

基本思想： 1 利用pyside开发python版图形界面程序（利用Qt开发图形界面程序） 2 利用py2exe将python脚本转换成windows上的可独立执行的可执行程序（不需要安装python和Qt） 3 将exe程序和相关库打包成安装程序。 1 pyside 安装pyside后，~\Python27\Lib\

转载 2014-01-10 21:51:21 · 2227 阅读 · 0 评论
python与复杂科学(2013-09-16 15:28:21)转载▼

二十年前我希望找到一本“复杂科学”的书，现在有了我可能没有时间看了：http://www.greenteapress.com/探索复杂科学：http://www.greenteapress.com/complexity/index.html有两本Think in python：How to think like a computer scientist：（都是遵循Common Cr

转载 2014-01-13 14:52:37 · 845 阅读 · 0 评论
Python基础教程 -----good

Python基础教程网址：http://www.w3cschool.cc/python/python-cgi.html

原创 2014-01-15 15:31:03 · 667 阅读 · 0 评论
Python汉字编码经验总结

Python汉字编码经验总结每次处理汉字，总要出现一些意外。最容易出现的问题有：从输入对话框获取的包含汉字的字符串，写入数据库后再读出来，变成乱码。从文件对话框中获取的文件路径，不能被处理文件的模块接受。使用Inno打包程序，不能使用中文路径。Python中的字符串有str和unicode两种形式，两者之间不能连接，也不能比较。汉字编码，常见

转载 2014-01-17 20:53:25 · 1326 阅读 · 0 评论
爬虫原理

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。下面一系列文章将对爬虫技术做详细的介绍，希望大家最终能够做出自己喜爱的爬虫。网络爬虫技术随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，百度,Yahoo!和Goog

转载 2014-02-13 14:45:23 · 925 阅读 · 0 评论
(python学习心得) 字符编码转换

现在做的一个小工具，功能是：server端抓取网页内感兴趣的内容，传送给客户端（手机设备）。统一了传送内容的编码格式是utf-8的。在抓取到的页面中，大部分都是gb2312的，因此需要转码为utf-8格式字串。思路是先将origin_str转换成unicode字符串mid_str,然后用目标码制对其编码可以得到result_str. 在这里记录下转码过程： 1：

原创 2014-02-16 11:14:24 · 655 阅读 · 0 评论
AttributeError: 'module' object has no attribute 'Frame' 解决方法

最近对wxpython的GUI编程试用了下，试用过程中出现报错：[python] view plaincopyprint?Traceback (most recent call last): File "E:\study\python\wxpython1\stdout_err.py", line 7, in class Frame(wx.F

转载 2014-02-28 20:38:02 · 5195 阅读 · 0 评论
Scrapy——可配置的爬虫

转自：http://bbs.cnpameng.com/bbs/forum.php?mod=viewthread&tid=12&extra=page%3D1Scrapy——可配置的爬虫简介 Scrapy是一个爬虫程序的框架，用来爬取网页内容和结构化内容的提取。所谓框架，就是可以自己定制一个针对特定网站的爬虫，定制的方法仅仅是需要添加一些简单的规则即可。很多大部分

转载 2014-02-18 12:02:24 · 2224 阅读 · 0 评论
wxPython

目录欢迎使用wxPython开始wxPython创建最小的空的wxPython程序导入wxPython使用应用程序和框架工作扩展这个最小的空的wxPython程序创建最终的hello.py程序1. 欢迎使用wxPython下面是一个例子，它创建了一个有一个文本框的窗口用来显示鼠标的位置。切换行号显示切换行号显示 1 #!/b

转载 2014-02-28 20:15:49 · 1566 阅读 · 0 评论
将Python程序打包成可执行文件

签：休闲python职场原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://sucre.blog.51cto.com/1084905/382733Python编程语言是一款功能强大的免费开源的通用型计算机程序应用语言，对于经验丰富的开发人员来说，掌握这样一款语言在其程序开发中是一个比较重要的选择。我们

转载 2014-03-01 14:49:00 · 847 阅读 · 0 评论
一位大牛整理的Python资源

来自http://blog.sina.com.cn/s/blog_5d236e060100ep4y.html~type=v5_one&label=rela_nextarticle一个论坛：http://www.python-forum.org/pythonforum/index.php一 python文章索引Total number is :102python基

转载 2014-03-12 14:40:36 · 1034 阅读 · 0 评论
Python 自省指南

什么是自省？在日常生活中，自省（introspection）是一种自我检查行为。自省是指对某人自身思想、情绪、动机和行为的检查。伟大的哲学家苏格拉底将生命中的大部分时间用于自我检查，并鼓励他的雅典朋友们也这样做。他甚至对自己作出了这样的要求：“未经自省的生命不值得存在。”（请参阅参考资料以获取关于苏格拉底更多信息的链接。）在计算机编程中，自省是指这种能力：检查某些事物以确

转载 2014-03-12 20:39:31 · 720 阅读 · 0 评论
文件操作之遍历目录

Python的os模块，包含了普遍的操作系统功能，这里主要学习与路径相关的函数：os.listdir(dirname)：列出dirname下的目录和文件os.getcwd()：获得当前工作目录os.curdir:返回当前目录（'.')os.chdir(dirname):改变工作目录到dirnameos.path.isdir(name):判断name是不是一个目录，name不是目

转载 2014-03-13 16:26:17 · 669 阅读 · 0 评论
python用zipfile模块打包文件或是目录、解压zip文件实例

转自：http://wangwei007.blog.51cto.com/68019/1045577 python用zipfile模块打包文件或是目录、解压zip文件实例，不过好像解压对中文的支持不太好，不包含中文的话没有问题，有懂的朋友可以帮助完善一下。 #!/usr/bin/env python # -*- coding: utf-8 -*- from zipfi

转载 2014-03-13 17:21:41 · 5258 阅读 · 1 评论
提取中文词组

提取中文词组原文从如下的txt文件中提取【】中的词组。【挨边】āi∥biān(～儿)①动靠着边缘：上了大路，要挨着边儿走。②动接近(某数，多指年龄)：我六十～儿了。③形接近事实或事物应有的样子：你说的太不～儿!【挨近】āi∥jìn动靠近：你～我—点儿｜两家挨得很近。【挨批】ái∥pī动受到批评或批判：挨了一顿批。【挨宰】ái∥zǎi〈口〉动比喻购物或接受服务时被索取高价

原创 2014-03-07 18:52:57 · 2259 阅读 · 0 评论

python

作者: wukk007

转载：[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容

[Python]网络爬虫（三）：异常的处理和HTTP状态码的分类

[Python]网络爬虫（四）：Opener与Handler的介绍和实例应用

正则表达式

python爬虫教程大全

新浪微博Python SDK笔记——发微博（一） .

逻辑回归 与梯度算法

学习Machine Leaning In Action（四）：逻辑回归

使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies .

利用Python抓取和解析网页 .

利用python实现新浪微博爬虫 .

python正则表达式匹配中文

python 登录人人网。。。

新浪微博API Oauth2.0 认证。。。

[Python ] python中文件的基本操作

一个方便的读取GML文件 方法

networkx画中文节点 networkx画中文节点

EM算法及其应用（代码）

Scrapy——可配置的爬虫

python 与算法

Python自动化测试 (二) ConfigParser模块读写配置文件

Eclipse+Pydev构建Python的开发环境

python3.3.2中的关键字如下：

Python自动化测试 (一) Eclipse+Pydev 搭建开发环境

python+pyside+py2exe+inno setup 开发图形界面程序

python与复杂科学(2013-09-16 15:28:21)转载▼

Python基础教程 -----good

Python汉字编码经验总结

爬虫原理

(python学习心得) 字符编码转换

AttributeError: 'module' object has no attribute 'Frame' 解决方法

Scrapy——可配置的爬虫

wxPython

将Python程序打包成可执行文件

一位大牛整理的Python资源

Python 自省指南

文件操作之遍历目录

python用zipfile模块打包文件或是目录、解压zip文件实例

提取中文词组

逻辑回归与梯度算法

一个方便的读取GML文件方法