自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 [Python ] python中文件的基本操作

原文地址: http://blog.163.com/qimeizhen8808@126/ 这女孩写的挺好,有值得学习的地方。  1) 文件的打开和创建,关闭 a)文件的打开和创建主要有两个open()和file()两个方法。它们的功能是提供了初始化输入/输出(I/O)通用接口. 格式:file(name, mode [, buffering]] )name:文件名称,相对路

2013-10-30 10:15:24 817

转载 python 登录人人网。。。

对于社交网络的爬虫,有一个很大的问题就是处理登陆。对于认证模块,有很多方法,获取cookie伪装成为浏览器。再或者调用第三方网站API,进行 Oauth认证。下面针对 renren 网,通过使用 cookie 方式登录。python 有一个标准模块 cookielib。里面有一个 CookieJar类,可以生成一个获取远程cookie的对象实例。 用法如下

2013-10-23 20:28:35 837

转载 新浪微博API Oauth2.0 认证。。。

本意是在注销账号前保留之前的一些数据。决定用python 爬取收藏。可是未登录无法爬取。想要登录有两种办法,伪造浏览器登录。第二就是注册新浪开发者账号,通过Oauth认证调用其API。Oauth 的原理搞了一天才明白。很多网站都提供多语言的Oauth。而 1.0 和 2.0 的最大差别就是多了一个 callback 回调页面。关于这方面的说明很少,搞得我一头雾水折腾了好久。总算明白了。

2013-10-23 20:05:35 1694

原创 机器学习领域一些值得关注的人

M.I.Jordan  机器学习,统计学习业界大牛。Graphical model, Baysian learning, hierarchical       http://www.cs.berkeley.edu/~jordan/D.Blei  Jordan 的学生。2004年发明了LDA算法,HLDA等,一直到现在topic modelingd都很火   http://www.cs.

2013-10-16 21:34:35 864

转载 谈谈机器学习(Machine Learning)大家 .

闲着无事,想写点一些我所了解的machine learning大家。由于学识浅薄,见识有限,并且仅局限于某些领域,一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知,所以不对的地方大家仅当一笑。Machine Learning 大家(1):M. I. Jordan在我的眼里,M Jordan无疑是武林中的泰山北斗。他师出MIT,现在在berkeley坐镇一方,在附近的两所名

2013-10-16 21:15:41 1189

转载 python正则表达式匹配中文

今天遇到一个问题,想用正则表达式匹配一段文本:比如:几个、几样、几招、几种1个,2种,3样……20个等以及一个,二种,三样……二十样等起初是这样写的,一直不对。。[plain] view plaincopyprint?几[种样款个类招]+?  [0-9]+[种样款个类招]+?  [一二三四五六七八九十]+[种样款个类招]+?  几[种样款个类

2013-10-16 21:05:01 1014

转载 利用python实现新浪微博爬虫 .

新版新浪微博模拟登陆请看:http://blog.csdn.net/monsion/article/details/8656690本文后面的解决动态加载的程序依然有效重新编辑了一次,出了点儿问题第一个模块,模拟登陆sina微博,创建weiboLogin.py文件,输入以下代码:[python] view plaincopyprint?#! /usr/

2013-10-16 20:58:47 2776

原创 HTTP 协议详解2 .

当今web程序的开发技术真是百家争鸣,ASP.NET, PHP, JSP,Perl, AJAX 等等。 无论Web技术在未来如何发展,理解Web程序之间通信的基本协议相当重要, 因为它让我们理解了Web应用程序的内部工作. 本文将对HTTP协议进行详细的实例讲解,内容较多,希望大家耐心看。也希望对大家的开发工作或者测试工作有所帮助。使用Fiddler工具非常方便地捕获HTTP Request和

2013-10-16 20:41:56 742

转载 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies .

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,我们介绍了一个可以帮助简化打开 位于本地和Web上的HTML文档的Python模块。在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的

2013-10-16 20:10:43 2216

转载 利用Python抓取和解析网页 .

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python

2013-10-16 19:20:03 2082

原创 学习Machine Leaning In Action(四):逻辑回归

第一眼看到逻辑回归(Logistic Regression)这个词时,脑海中没有任何概念,读了几页后,发现这非常类似于神经网络中单个神经元的分类方法。书中逻辑回归的思想是用一个超平面将数据集分为两部分,这两部分分别位于超平面的两边,且属于两个不同类别(和SVM的想法有些相似),如下图:因此,一般的逻辑回归只能处理两分类问题,同时两个类别必须是线性可分的。对于线性不可分问

2013-10-15 10:22:48 856

原创 逻辑回归 与梯度算法

逻辑回归(logistic regression)1. sigmoid 函数:梯度上升(Gradient Ascent)与 梯度下降(Gradient Descent):     2. 循环迭代的梯度上升计算系数w:12345678910

2013-10-15 09:55:48 1946

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除