python
anlun
这个作者很懒,什么都没留下…
展开
-
黄聪:关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项(转)
黄聪:关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项(转)抓取网页的一般逻辑和过程一般普通用户,用浏览器,打开某个URL地址,然后浏览器就可以显示出对应的页面的内容了。这个过程,如果用程序代码来实现,就可以被称为(用程序实现)抓取网页(的内容,并进行后期处理,提取所需信息等)对应的英文说法有,website crawl/scrape/data minin转载 2015-02-02 08:46:01 · 560 阅读 · 0 评论 -
黄聪:使用 Python 登录网站
对于大部分论坛,我们想要抓取其中的帖子分析,首先需要登录,否则无法查看。 这是因为 HTTP 协议是一个无状态(Stateless)的协议,服务器如何知道当前请求连接的用户是否已经登录了呢?有两种方式:在URI 中显式地使用 Session ID;利用 Cookie,大概过程是登录一个网站后会在本地保留一个 Cookie,当继续浏览这个网站的时候,浏览器会把 Cookie 连同地转载 2015-02-02 08:49:01 · 531 阅读 · 0 评论 -
黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二) 对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,转载 2015-02-02 08:43:53 · 733 阅读 · 0 评论 -
黄聪:用python知道URL地址提取链接中的域名与端口
黄聪:用python知道URL地址提取链接中的域名与端口 import urllib proto, rest = urllib.splittype("http://www.baidu.com/11/12.htm") host, rest = urllib.splithost(rest) print host host,转载 2015-02-02 09:25:40 · 799 阅读 · 0 评论 -
黄聪:Python网站采集功能(多线程的采集、WDPYSPIDER类、pycurl)
黄聪:Python网站采集功能(多线程的采集、WDPYSPIDER类、pycurl)Python1import urllib2urlItem= urllib.urlopen("http://www.baidu.com")3htmSource转载 2015-02-02 08:50:00 · 1379 阅读 · 0 评论 -
黄聪:Python实现Discuz论坛的自动POST登录发贴回帖(转)
黄聪:Python实现Discuz论坛的自动POST登录发贴回帖(转)#-*-coding:utf-8-*-import urllib2, urllib, cookielibimport reimport getpassimport sqlite3import randomimport time class Discuz: def __init__(转载 2015-02-02 09:27:32 · 4354 阅读 · 1 评论 -
黄聪:解决python中文处理乱码,先要弄懂“字符”和“字节”的差别
黄聪:解决python中文处理乱码,先要弄懂“字符”和“字节”的差别转载来自:http://hcsem.com/2095/我来讲一下字符问题我的理解吧,虽然我对Python的编码处理的具体细节还不太清楚,不过临时稍微看了一下,和Perl的原理也差不多 最重要的是必须区分“字符”和“字节”的不同,“字符”是抽象的,而“字节”是具体的 比如一个“中”字,在不同编转载 2015-02-02 09:23:17 · 1185 阅读 · 0 评论 -
黄聪:python访问抓取网页常用命令(保存图片到本地、模拟POST、GET、中文编码问题)
黄聪:python访问抓取网页常用命令(保存图片到本地、模拟POST、GET、中文编码问题)简单的抓取网页:import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象page=response.read() 直接将转载 2015-02-02 08:47:41 · 785 阅读 · 0 评论 -
黄聪:Scrapy 轻松定制网络爬虫
黄聪:Scrapy 轻松定制网络爬虫网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬, 而是有一定目的的,并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Internet 上搜集网页内容以及它们之间的链接等信息;又比转载 2015-02-02 09:28:48 · 985 阅读 · 0 评论 -
黄聪:python控制台无法正常显示中文字符串解决方法
黄聪:python控制台无法正常显示中文字符串解决方法#!python# encoding: utf-8s = "哈哈"ss = u'哈哈'print s.decode('utf-8').encode('gbk')print ss.encode('gbk')转载 2015-02-02 09:24:36 · 799 阅读 · 0 评论 -
黄聪:pycharm开发python 在python Console中输出的程序有乱码,含有中文的输出
黄聪:pycharm开发python 在python Console中输出的程序有乱码,含有中文的输出文件编码是UTF-8,同时在文件头添加 # -*- coding: utf-8 -*-文件中所有的字符串前都加u,如 u"中文"在输入(抓取某些utf-8/gbk的网页)、输出(输出到网页、终端)的时候,要记住python内部是用Unicode存储的所有输入要先decode,变成u转载 2015-02-02 09:21:05 · 1719 阅读 · 0 评论 -
黄聪:Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)
黄聪:Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)去空格及特殊符号s.strip().lstrip().rstrip(',')复制字符串#strcpy(sStr1,sStr2)sStr1 = 'strcpy'sStr2 = sStr1sStr1 = 'strcpy2'print sSt转载 2015-02-02 08:51:44 · 508 阅读 · 0 评论 -
使用Python中的urlparse、urllib抓取和解析网页(一)
黄聪:使用Python中的urlparse、urllib抓取和解析网页(一) 对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首 先,我们介绍一个可以帮转载 2015-02-02 08:42:46 · 790 阅读 · 0 评论