Python爬虫
「已注销」
这个作者很懒,什么都没留下…
展开
-
9、Python3 Scrapy 安装方法 (一脸辛酸泪)
写在前面 最近在学习爬虫,在熟悉了Python语言和BeautifulSoup4后打算下个爬虫框架试试。 没想到啊,这坑太深了。。。 看了看相关介绍后选择了Scrapy框架,然后兴高采烈的打开了控制台, pip install Scrapy 坑出现了。。。。 运行报错error: Unable to find vcvarsall.bat 开始上网查解决方法。。 看了大多数方法,基原创 2017-03-07 16:39:38 · 559 阅读 · 0 评论 -
11、一个简单的更美APP美购项目爬虫
import scrapyclass QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://www.gmei.com/promotion_list/province_268?page=1', ] def parse(self, response): for原创 2017-03-10 13:46:56 · 604 阅读 · 0 评论 -
10、scrapy1.3.0 中文教程
创建项目 在开始爬取之前,您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中,运行下列命令: scrapy startproject tutorial 该命令将会创建包含下列内容的 tutorial 目录: tutorial/ scrapy.cfg # 项目的配置文件 tutorial/ # 项目的python原创 2017-03-09 20:58:12 · 1445 阅读 · 0 评论 -
8、Python正则表达式指南
正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。 得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。如果已经在其他语言里使用过正则表达式,只需要简单看一看就可以上手了。原创 2017-03-05 12:30:49 · 369 阅读 · 0 评论 -
7、批量关键字百度搜索结果url解码
import requestsfrom bs4 import BeautifulSoupimport reimport time#coding:utf-8with open('key.txt','r') as f: result = f.read()keys = result.split('\n')key_words = list(enumerate(keys, start=1))原创 2017-03-05 12:23:15 · 2441 阅读 · 0 评论 -
6、一个简单的新氧的小爬虫
from bs4 import BeautifulSoupimport requestsimport mathurl_hos = []for i in range(1,15): url_source = 'http://y.soyoung.com/hospital/0_0_0_0_0_0_415_0_0_2/{}'.format(i) web_db = requests.get(原创 2017-03-05 12:20:43 · 1097 阅读 · 1 评论 -
5、URL异常处理和HTTP状态码抛出异常
import requestsfrom bs4 import BeautifulSoup#coding:utf-8#404页url = 'http://www.chinaz.com/manage/2017/0304/665559.shtml'#URL异常处理try: response = requests.get(url)except: data = { 'u原创 2017-03-04 13:54:58 · 2124 阅读 · 0 评论 -
4、利用Request和Beautiful Soup抓取指定URL内容
import requestsfrom bs4 import BeautifulSoup原创 2017-03-03 16:35:13 · 2691 阅读 · 0 评论 -
2、Python Requests快速入门
快速上手 迫不及待了吗?本页内容为如何入门 Requests 提供了很好的指引。其假设你已经安装了 Requests。如果还没有,去安装一节看看吧。 首先,确认一下: Requests 已安装 Requests 是最新的 让我们从一些简单的示例开始吧。 发送请求 使用 Requests 发送网络请求非常简单。一开始要导入 Requests 模块:>>> import requests原创 2017-03-03 16:13:48 · 400 阅读 · 0 评论 -
3、Python Beautiful Soup快速开始
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况. 文档中出现的例子原创 2017-03-03 16:28:26 · 363 阅读 · 0 评论 -
1、抓取网页的含义和URL基本构成
一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。 如果把整个互联网当成一个原创 2017-03-03 15:40:06 · 818 阅读 · 0 评论 -
12、外贸站采集代码
import scrapyclass QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://www.techstart.org.uk/index.php?main_page=advanced_search_result&search_in_description=1&keyword=a原创 2017-03-10 21:46:05 · 507 阅读 · 0 评论