爬虫
almost_Mr
这个作者很懒,什么都没留下…
展开
-
python 爬取糗事百科
step 1:构建一个提取糗事百科笑话的函数import urllib2 import urllib import re import thread import time import sys reload(sys) sys.setdefaultencoding("utf-8") def GetPage(page): myUrl =原创 2016-12-05 23:50:54 · 612 阅读 · 0 评论 -
python爬虫
# -*- coding: utf-8 -*- #--------------------------------------- #爬取百度贴吧关于sandy的资料 #操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。 #功能:下载对应页码内的所有页面并存储为html文件 #--------------------------------------- import s原创 2016-12-04 18:21:26 · 405 阅读 · 0 评论 -
python爬取链家数据
V1版import sys reload(sys) sys.setdefaultencoding("utf-8") #设定编码要放在最上面。之前放在引用库的最下面,然后加到pandas的DataFrame老是出现中文字符为问号的乱码 import pandas as pd import urllib2 import urllib import time import re fr原创 2016-12-07 00:31:06 · 1221 阅读 · 0 评论 -
python爬取百度贴吧
import sys reload(sys) sys.setdefaultencoding('utf-8') import urllib2 import re#----------- 处理页面上的各种标签 ----------- class HTML_Tool: # 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片 BgnCharToNon原创 2016-12-09 22:46:52 · 652 阅读 · 0 评论 -
爬取人人贷
import sys reload(sys) sys.setdefaultencoding("utf-8") import urllib2 import urllib import re import pandas as pd import numpy as np import matplotlib.pyplot as plturl='https://www.we.com/loa原创 2016-12-14 14:45:46 · 3755 阅读 · 1 评论 -
爬虫框架scrapy,爬取豆瓣电影top250
1 . 新建项目进入打算存储代码的目录,命令行运行如下语句 scrapy startproject tutorial 2 . 定义Itemimport scrapyclass DoubanItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title原创 2016-12-31 23:09:11 · 7731 阅读 · 2 评论