Python实战之爬虫
搜索与推荐Wiki
这个作者很懒,什么都没留下…
展开
-
python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容:全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下#coding:utf-8import urllib2from bs4 import BeautifulSoupimport osimport re#import sys#reload(sys)#sys.setdefau...原创 2015-08-27 21:18:41 · 5447 阅读 · 1 评论 -
新浪明星日志热门推荐(java实现)
现在进行推荐的第三步:1:利用数据的格式如下:2:编程语言采用的是Java,源代码如下:package top10;import java.util.*;import java.io.*;public class top { public static void top(String []one,String []two,String []three){...原创 2015-06-19 08:15:05 · 3367 阅读 · 0 评论 -
python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)
废话不多说,直接贴代码,主要采用BeautifulSoup写的#coding:utf8from bs4 import BeautifulSoupimport urllib2import urllibimport osi = 0j = 0list_a = []def gettext(href): global j,list_a page = urll...原创 2015-05-19 00:19:18 · 3873 阅读 · 0 评论 -
python模拟用户登录某某网
python模拟用户登录某某网:#encoding:utf-8 import urllib2,cookielib import re #在网页登陆成功后的cookies字符串 cookie="|utmccn=(referral)|utmcmd=referral|utmcct=/jira/browse/ONLINEISSU-1131; lk_vuid=136...原创 2015-09-23 01:23:48 · 2807 阅读 · 0 评论 -
python模拟登录网易邮箱
python模拟登录网易邮箱#coding:utf-8import urllib2,urllibimport cookielibfrom bs4 import BeautifulSoup#设置代理IPproxy_support = urllib2.ProxyHandler({'http':'120.197.234.164:80'})#设置cookiecookie_sup...原创 2015-09-28 21:54:37 · 9111 阅读 · 2 评论 -
python模拟浏览器登录人人网,并使用代理IP和发送表单数据
Python模拟登录人人网,并使用代理IP#__author__ = 'Administrator'#encoding=utf-8import urllib2,urllibimport cookielibfrom bs4 import BeautifulSoup#登录的urlhosturl = "http://www.renren.com"#这里是要将账号和密码等信息...原创 2015-09-28 19:10:41 · 4169 阅读 · 0 评论 -
Python爬取CSDN博客专家系列——移动开发
注明:小编亲测,只要把第一部分里面的url修改,即可抓取博客专家里边所有的专家的博客内容和标题,后续小编还会对此代码改进,敬请期待文章分为两部分:Python爬虫爬取移动开发专家的姓名和博客首页地址,爬取每个专家的所有博客存放在已该专家名字命名的txt文件中说明:本爬虫主要是采用BeautifulSoup和少量的正则匹配,在第一部分抓取完毕后需要将文件格式改为ANSI,代码如下:第一部分:...原创 2015-08-11 20:42:40 · 2973 阅读 · 1 评论 -
新浪明星日志推荐系统——爬虫爬取数据(2)
由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下:import urllibimport os,reimport sysfrom bs4 import BeautifulSoupreload(sys)sys.setdefaultencoding("utf-8")def if_str(str_t...原创 2015-05-26 08:54:32 · 3447 阅读 · 0 评论 -
BeautifulSoup中解决乱码问题
由于初步学习Python爬取网页文本内容,在存储文本时出现乱码问题我的代码如下:import urllibfrom bs4 import BeautifulSoupimport sysreload(sys)sys.setdefaultencoding('utf-8')fp = file("test.txt","wb+")page=urllib.urlo...原创 2015-05-18 18:50:54 · 3200 阅读 · 0 评论 -
新浪明星日志推荐系统——爬虫爬取数据(1)
今天有了一个想法,想自己用Python写一个新浪明星日志推荐系统那么第一步要完成的工作就是获得新浪明星日志的数据,于是自己写了一个爬虫,实现的功能是爬取新浪明星日志的作者,推荐的文章链接,以及作者日志列表或者首页链接,具体程序如下:# -*- coding: utf-8 -*-"""Created on Wed May 20 13:55:00 2015@author: Thi...原创 2015-05-21 07:52:54 · 4104 阅读 · 0 评论 -
Python爬虫抓取图片,网址从文件中读取
利用python抓取网络图片的步骤:根据给定的网址获取网页源代码 利用正则表达式把源代码中的图片地址过滤出来 根据过滤出来的图片地址下载网络图片import urllibimport reimport os#urllib,re,os均为Python模块def gethtml(outline): page = urllib.urlopen(outline) ...原创 2015-03-31 23:30:28 · 3336 阅读 · 1 评论 -
Scrapy 爬取百度贴吧指定帖子的发帖人和回帖人
该篇文章将是Scrapy爬虫系列的开篇,随后会不定时更新该框架方面的内容和知识,在scrapy之前写爬虫主要用的BeautifulSoup, request 和urllib,但随着使用程度的加深,慢慢意识到功能和效率都是不够的,那么便重新接触了Scrapy框架,并尝试着写出一些有趣的东西。原创 2017-07-13 09:26:38 · 5529 阅读 · 0 评论