scarpy使用遇到的坑,总结

除了抓取第一页外,抓取第2,3等下一页参考:Python + Scrapy 抓取豆瓣电影 top 250 http://www.jianshu.com/p/62e0a588ee0d # 翻页 next_page = response.xpath('//span[@class=&qu...

2017-02-11 10:37:48

阅读数 1556

评论数 0

解决Requests中文乱码

都在推荐用Requests库,而不是Urllib,但是读取网页的时候中文会出现乱码。分析: r = requests.get(“http://www.baidu.com“) **r.text返回的是Unicode型的数据。 使用r.content返回的是bytes型的数据。 也就是说,...

2017-02-06 09:37:19

阅读数 36960

评论数 4

lxml解析html时,检验XPath

这两天在研究Scrapy,在遇到用Xpath提出时,需要有Chrome的XPath helper,但老是出现错误。废话少说,还是先把测试网页保存到本地,逐步的测试提取。测试文本text.html<!DOCTYPE html> <html lang="en"&g...

2017-02-05 20:29:52

阅读数 4392

评论数 0

常用正则表达式爬取网页信息及分析HTML标签总结

见链接 https://yq.aliyun.com/articles/26026摘要: 这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法。它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫、Be...

2017-02-05 09:33:03

阅读数 7314

评论数 0

网络爬虫:Requests+lxml

目标:百度百科Python词条相关网页—标题和简介 入口页:http://baike.baidu.com/view/21087.htm

2017-02-04 08:32:48

阅读数 5008

评论数 1

Python2自动转Python3

cmd中E:\Program Files\Anaconda3\Tools\scripts>python 2to3.py -w "E:\Python Program\b.py"因为cmd中E:\Python Program\b.py不识别长语句,会将E:\Python与Pr...

2017-01-28 22:07:05

阅读数 775

评论数 0

网络爬虫:各种模板

运行BeautifulSoup import urllib.request import urllib.error from bs4 import BeautifulSoupdef get_title(url): try: req=urllib.request.Reques...

2017-01-26 18:08:30

阅读数 2833

评论数 0

网络爬虫:淘女郎

#_*_ coding:utf-8 _*_import urllib.request from bs4 import BeautifulSoup import os import re from selenium import webdriver class Spider: #页面初始化 ...

2017-01-26 17:56:04

阅读数 404

评论数 0

python selenium环境配置Firefox和Chrome

1、下载Selenium库,可以使用pip install selenium https://pypi.python.org/pypi/selenium/ 2、下载驱动 Chrome: https://sites.google.com/a/chromium.org/chromedriver/...

2017-01-24 15:40:07

阅读数 13419

评论数 0

网络爬虫:BeautifulSoup

以获取网页的title为例基础模板# -*- coding: utf-8 -*-import urllib.request import urllib.error from bs4 import BeautifulSoupdef get_title(url): req=urllib.req...

2017-01-21 17:18:25

阅读数 573

评论数 0

网络爬虫:抓取XXOO图片

基本程序# -*- coding: utf-8 -*-import urllib.request import urllib.parse import os from bs4 import BeautifulSoup import redef url_open(url): req=urlli...

2017-01-20 19:14:21

阅读数 3785

评论数 1

网络爬虫:百度百科

爬百度百科的词条编写一个爬虫,爬百度百科“网络爬虫”的词条(链接:http://baike.baidu.com/view/284853.htm),将所有包含“view”的链接按下边格式打印出来。锁定 –> http://baike.baidu.com/view/10812319.htm 网...

2017-01-19 16:04:08

阅读数 1063

评论数 0

使用http.cookiejar生产Cookie模拟用户登陆

# -*- coding: utf-8 -*-import re import urllib.parse import urllib.request from http.cookiejar import CookieJar#豆瓣的登录url loginurl = "https://www...

2017-01-18 14:39:10

阅读数 2907

评论数 3

网络爬虫:利用有道实现“语言翻译”功能

代码如下:import urllib.request import urllib.parse import jsondef main(): while True: content=input("请输入需要翻译的内容(退出输入q):") i...

2017-01-18 09:44:13

阅读数 3728

评论数 4

网络爬虫:识别网站编码,然后转码,然后写入txt文档

读取一个网页信息时,需要了解编码格式,然后进行解码。推荐使用chardet包中detect()函数import urllib.request response=urllib.request.urlopen("http://baidu.com").read() import ch...

2017-01-17 10:49:33

阅读数 2316

评论数 0

__getattr__和__getattribute__的区别

getattr(self, item)定义当用户试图获取一个不存在的属性的行为 getattribute(self, item)定义该类的属性被访问时的行为因为,计算机肯定先访问存在的属性,如果没有再访问不存在的属性,即先访问getattribute(self, item),再访问getattr...

2017-01-15 09:18:37

阅读数 948

评论数 1

魔法方法:属性访问

需求: 1. 写一个矩形类,默认有宽和高两个属性; 2. 如果为一个叫square的属性赋值,那么说明这是一个正方形,值就是正方形的边长,此时宽和高都应该等于边长。# -*- coding: utf-8 -*-class Rectangle: def __init__(self,len...

2017-01-15 08:28:21

阅读数 281

评论数 0

类组合

需求:要求定义一个类,叫水池,水池里要有乌龟和鱼。 注意:水池与(乌龟和鱼)没有继承关系,顾不能用super()class Turtle: def __init__(self,x): self.num=xclass Fish: def __init__(self,...

2017-01-05 22:00:51

阅读数 274

评论数 0

子类屏蔽父类的方法

需求: 假设已经有鸟类的定义,现在我们定义鸵鸟继承了鸟类的属性。但是鸟类有会飞的方法,鸵鸟是不会飞的。那么鸵鸟类中应该如何屏蔽鸟类中会飞的方法呢?# -*- coding: utf-8 -*-class Bird: def fly(self): print("I...

2017-01-05 17:38:10

阅读数 1844

评论数 0

定义一个游乐园门票的类

要求:按照以下要求定义一个游乐园门票的类,并尝试计算2个成人+1个小孩平日票价。 (1)平日票价100元 (2)周末票价为平日的120% (3)儿童半票。# -*- coding: utf-8 -*-class Ticket: def __init__(self,time,adult...

2017-01-05 15:44:22

阅读数 1291

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭