Scrapy 爬取百度贴吧指定帖子的发帖人和回帖人

该篇文章将是Scrapy爬虫系列的开篇,随后会不定时更新该框架方面的内容和知识,在scrapy之前写爬虫主要用的BeautifulSoup, request 和urllib,但随着使用程度的加深,慢慢意识到功能和效率都是不够的,那么便重新接触了Scrapy框架,并尝试着写出一些有趣的东西。...
阅读(2162) 评论(0)

python模拟登录网易邮箱

python模拟登录网易邮箱 #coding:utf-8 import urllib2,urllib import cookielib from bs4 import BeautifulSoup #设置代理IP proxy_support = urllib2.ProxyHandler({'http':'120.197.234.164:80'}) #设置cookie...
阅读(4811) 评论(0)

python模拟浏览器登录人人网,并使用代理IP和发送表单数据

Python模拟登录人人网,并使用代理IP #__author__ = 'Administrator' #encoding=utf-8 import urllib2,urllib import cookielib from bs4 import BeautifulSoup #登录的url hosturl = "http://www.renren.com" #这里是要将账号和密码...
阅读(2324) 评论(0)

python模拟用户登录某某网

python模拟用户登录某某网: #encoding:utf-8 import urllib2,cookielib import re #在网页登陆成功后的cookies字符串 cookie="|utmccn=(referral)|utmcmd=referral|utmcct=/jira/browse/ONLINEISSU-1131; lk_vuid=...
阅读(1195) 评论(0)

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setd...
阅读(2466) 评论(0)

Python爬取CSDN博客专家系列——移动开发

文章分为两部分:爬取移动开发专家的姓名和博客首页地址,爬取每个专家的所有博客存放在已该专家名字命名的txt文件中 说明:本爬虫主要是采用BeautifulSoup和少量的正则匹配,在第一部分抓取完毕后需要将文件格式改为ANSI,代码如下: 第一部分: import urllib2 from bs4 import BeautifulSoup import sys reload(sys) sy...
阅读(1730) 评论(1)

新浪明星日志热门推荐(java实现)

现在进行推荐的第三步: 1:利用数据的格式如下: 2:编程语言采用的是Java,源代码如下: package top10; import java.util.*; import java.io.*; public class top {     public static void top(String []one,String []two,String []thre...
阅读(1624) 评论(0)

新浪明星日志推荐系统——爬虫爬取数据(2)

由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下: import urllib import os,re import sys from bs4 import BeautifulSoup reload(sys) sys.setdefaultencoding("utf-8") def if_st...
阅读(2017) 评论(0)

新浪明星日志推荐系统——爬虫爬取数据(1)

今天有了一个想法,想自己用Python写一个新浪明星日志推荐系统  那么第一步要完成的工作就是获得新浪明星日志的数据,于是自己写了一个爬虫,实现的功能是爬取新浪明星日志的作者,推荐的文章链接,以及作者日志列表或者首页链接,具体程序如下: # -*- coding: utf-8 -*- """ Created on Wed May 20 13:55:00 2015 @autho...
阅读(2085) 评论(0)

python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

废话不多说,直接贴代码,主要采用BeautifulSoup写的 # -*- coding: utf-8 -*- """ Created on Mon May 18 19:12:06 2015 @author: Administrator """ import urllib import os from bs4 import BeautifulSoup impo...
阅读(2256) 评论(0)

BeautifulSoup中解决乱码问题

由于初步学习Python爬取网页文本内容,在存储文本时出现乱码问题 我的代码如下: import urllib from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('utf-8') fp = file("test.txt","wb+") page=urllib.urlop...
阅读(1011) 评论(0)

Python爬虫抓取图片,网址从文件中读取

利用python抓取网络图片的步骤: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片 import urllib import re import os                                                             #urllib,r...
阅读(1455) 评论(1)
    Thinkgamer微博
    微信公众号【码农故事多】
    个人资料
    • 访问:873268次
    • 积分:10380
    • 等级:
    • 排名:第1802名
    • 原创:218篇
    • 转载:22篇
    • 译文:2篇
    • 评论:294条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论