[置顶] Python开发安装的一些常用模块

一、BeautifulSoup模块 关于BeautifulSoup模块主要用于规范化网页源代码,利用其一些特定的解析标签函数来分析网页,的得到一些特定的内容,用起来方便简单容易入门,但仍然有一些弊端,比如说对于网页中含有js代码的就不能有效读取与分析,所以常结合正则表达式来进行使用,效率特别好 二、Scrapy + Selenium 模块 这两个模块结合起来使用常用于解析javascript...
阅读(4973) 评论(3)

新浪明星日志推荐系统——爬虫爬取数据(2)

由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下: import urllib import os,re import sys from bs4 import BeautifulSoup reload(sys) sys.setdefaultencoding("utf-8") def if_st...
阅读(1815) 评论(0)

新浪明星日志推荐系统——爬虫爬取数据(1)

今天有了一个想法,想自己用Python写一个新浪明星日志推荐系统  那么第一步要完成的工作就是获得新浪明星日志的数据,于是自己写了一个爬虫,实现的功能是爬取新浪明星日志的作者,推荐的文章链接,以及作者日志列表或者首页链接,具体程序如下: # -*- coding: utf-8 -*- """ Created on Wed May 20 13:55:00 2015 @autho...
阅读(1806) 评论(0)

python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

废话不多说,直接贴代码,主要采用BeautifulSoup写的 # -*- coding: utf-8 -*- """ Created on Mon May 18 19:12:06 2015 @author: Administrator """ import urllib import os from bs4 import BeautifulSoup impo...
阅读(2043) 评论(0)

BeautifulSoup中解决乱码问题

由于初步学习Python爬取网页文本内容,在存储文本时出现乱码问题 我的代码如下: import urllib from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('utf-8') fp = file("test.txt","wb+") page=urllib.urlop...
阅读(870) 评论(0)
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:629806次
    • 积分:8313
    • 等级:
    • 排名:第2280名
    • 原创:208篇
    • 转载:24篇
    • 译文:2篇
    • 评论:211条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论