python爬虫实战
文章平均质量分 74
路ren甲
笨鸟是鸟,但笨鸟可以先飞,菜鸟也是鸟,但菜鸟可以怎样?站在巨人肩膀上!
展开
-
UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX
从网上抓取网站写下面这段代码时,发现报UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX 错误from urllib import requestreq=request.Request("https://www.baidu.com")req.add_header("User-Agent",原创 2017-02-10 22:50:00 · 2218 阅读 · 0 评论 -
千行代码入门Python
# _*_ coding: utf-8 _*_"""类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算"""#-- 寻求帮助: dir(obj) # 简单的列出对象obj所包含的方法名称,返回一个字符串列表 hel转载 2017-04-08 23:17:38 · 1680 阅读 · 0 评论 -
python3.x爬虫:爬取大学排名数据
import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding转载 2017-03-16 09:55:15 · 1755 阅读 · 0 评论 -
python3.x爬虫实战:爬今天头条的图集
爬今日头条的图集import osfrom _md5 import md5from hashlib import md5from multiprocessing import Poolimport requestsimport jsonfrom bs4 import BeautifulSoupimport reKEYWORD='美女,清纯'#关键词GROUP_START=0转载 2017-03-27 19:14:43 · 1065 阅读 · 0 评论 -
python3.x爬虫:按页爬取淘宝商品列表
import requestsimport re'''https://s.taobao.com/search?initiative_id=tbindexz_20170315&ie=utf8&spm=a21bo.50862.201856-taobao-item.2&sourceId=tb.index&search_type=item&ssid=s5-e&commend=all&imgfile=&转载 2017-03-16 09:52:14 · 5418 阅读 · 1 评论 -
python3.x爬虫实战:阿里巴巴网站定向信息抓取
#!/usr/bin/env python3# -*- coding: utf-8 -*-import requestsimport refrom bs4 import BeautifulSoupfrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selen原创 2017-07-13 11:12:30 · 1266 阅读 · 0 评论 -
python3.x爬虫学习:股票数据定向爬虫笔记
import requestsfrom bs4 import BeautifulSoupimport tracebackimport redef getHTMLtext(url, code="utf-8"): try: r =requests.get(url) r.raise_for_status() r.encoding = code print("test")转载 2017-03-15 21:48:23 · 4952 阅读 · 1 评论