dandd31-CSDN博客

原创 Python实战_3_第一周_第四节课程：爬取霉霉图片

我在we heart it 上爬去了冰与火之歌的图片。以下是我的代码# coding:utf-8from bs4 import BeautifulSoupimport requests'''这个脚本可以下载weheartit网站下冰与火之歌主题的图片url:http://weheartit.com/vvitaa_way/collections/103074737-a-song-of-ice-

2016-05-22 12:37:36 530

原创 Python实战_2_第一周_第三节课程：真实世界中的网页解析

定位一个元素，要找它唯一性的特征。有反爬虫机制的网站可以考虑移动版本。以下是小猪短租的作业coding:utf-8from bs4 import BeautifulSoup import requests import pandas as pd import time创建几个容器subpage_list = [] all_data = pd.DataFrame(columns = [‘标

2016-05-19 21:31:10 518

原创 Python实战_1_第一周_第二节练习项目：爬取商品信息

使用BeautifulSoup写爬虫，需要完成以下三个步骤。0 使用BeautifulSoup解析一个网页 1 找到所有你需要的标签 2 从标签中提取需要的数据xpath 更像文件结构 nth-child 子元素的意思

2016-05-15 15:34:54 470

原创 Python实战_0_第一周_第一节练习项目：动手做自己的网页

html 是骨架 w3school 是一个好地方 css 是肉填充了骨架 javascript 网页的脚本语言相当于大脑<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>The blah</title> <link rel="stylesheet" type="text/c

2016-05-14 13:05:48 1198

原创 Python_Scrapy_9.网页 HTML CSS

爬虫最关键的就是数据提取,我每次都要在网页解析和数据提取上花掉大量的时间,我之前写一个单线程的爬虫90%的时间都花在这里.在加上对网页制做也挺有兴趣的所以打算花点时间稍微深入的学习下.如果想深入学习的可以去w3c上看教程,但是这里我使用了入门级的教程: 计蒜客, 以下是我的学习心得.0.基本知识网页:就是HTML文档.URL:URL就是网址,网址的本质就是IP地

2015-06-23 13:54:50 558

原创 Python_Scrapy_8.爬虫

终于学到重头戏了,开始要写爬虫了. 大多数的解释在官方教程上都有.import scrapyclass DmozSpider(scrapy.spider.Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers

2015-06-21 18:03:41 541

原创 Python_Scrapy_7.回调函数

http://www.cnblogs.com/berlin-sun/p/callbackinpython.htmlhttp://www.zhihu.com/question/19801131

2015-06-19 16:17:41 1666

原创 Python_python2_Pycharm. 在Pycharm中出现的中文编码问题

在之前的学习中发现在python2种默认的是ASCII字符,如果要打印中文的字符需要设置编码.但是今天在使用Pycharm时又出现了新的编码原因.# coding:gbkprint ('测试中文编码')返回了乱码��ı��仔细思考了一下,中文保存在计算机中用的方法是一个编号对应着一个汉字, 不同的编码的区别就是汉子对应的编号是不同的. 在中文转编码和编码转中文时使用了两套不同的编码是就

2015-06-16 11:23:32 6163

原创 Python_Python2_文件读取时的编码问题

Python2在windows下打开文件的编码问题

2015-06-15 14:05:44 1253

原创 Python_Scrapy_6.错误与异常

看了一下官方教程的第二部分,发现用了异常处理机制.因为我的学习计划是围绕着项目进行了,天赋点不够用了就去打打挂提升下等级.0.编程时会出现的错误和异常0.代码本身的错误,也就是bug.比如字符串少打了一个引号,引起的语法错误.1.代码使用者错误的使用代码而产生的问题. 比如需要带入整数的却带入字符串2.使用代码是因为运行环境的差异而导致的问题. 比如向硬盘里写入数据时硬盘

2015-06-14 22:15:46 1905

原创 Python_Scrapy_5.类的学习

因为我之前只是简单的学了一下Python,并没有深入的学习面向对象的内容. 但是学习Scrapy需要用到大量和类相关的知识, 所以需要恶补. 0.面向对象编程其实面向对象的这个概念还是比较好理解的, 和我一样是初学者的应该只接触过面向过程编程. 面向过程的编程思路只在乎程序运行的过程.而面向对象编程完全不一样.对象,object翻译成中文有物体,目标,目的,东西的意思. 也

2015-06-14 21:17:17 471

原创 Python_Scrapy_4.items.py

官方入门教学 items部分的代码解释

2015-06-10 10:51:23 504

原创 Python_Scrapy_3.介绍骨架

介绍Scrapy骨架中的文件

2015-06-10 10:18:31 378

原创 Python_Scrapy_2.安装Scrapy

安装Scrapy

2015-06-10 09:07:08 344

原创 Python_Scrapy_1.什么是Scrapy

为什么要学Scrapy?

2015-06-09 16:43:57 446

原创 Python_Scrapy_0. 前言

开宗明义,我为什么要写这一系列的博客

2015-06-09 16:22:10 364

dandd31的博客