python之scrapy实战爬取表情包

Python 简介

下面的例子中,输入和输出分别由大于号和句号提示符( >>> 和 … )标注:如果想重现这些例子,就要在解释器的提示符后,输入(提示符后面的)那些不包含提示符的代码行。需要注意的是在练习中遇到的从属提示符表示你需要在最后多输入一个空行,解释器才能知道这是一个多行命令的结束。

本手册中的很多示例——包括那些带有交互提示符的——都含有注释。Python 中的注释以 # 字符起始,直至实际的行尾(译注——这里原作者用了 physical line 以表示实际的换行而非编辑器的自动换行)。注释可以从行首开始,也可以在空白或代码之后,但是不出现在字符串中。文本字符串中的 # 字符仅仅表示 # 。代码中的注释不会被 Python 解释,录入示例的时候可以忽略它们。

如下示例:

this is the first comment

spam = 1 # and this is the second comment
# … and now a third!
text = “# This is not a comment because it’s inside quotes.”
3.1. 将 Python 当做计算器
我们来尝试一些简单的 Python 命令。启动解释器然后等待主提示符 >>> 出现(不需要很久)。

3.1.1. 数字
解释器表现得就像一个简单的计算器:可以向其录入一些表达式,它会给出返回值。表达式语法很直白:运算符 +,-,* 和 / 与其它语言一样(例如:Pascal 或 C);括号 (()) 用于分组。例如:

2 + 2
4

50 - 5*6
20

(50 - 5*6) / 4
5.0

8 / 5 # division always returns a floating point number
1.6
整数(例如,2, 4, 20 )的类型是 int,带有小数部分的数字(例如,5.0, 1.6)的类型是 float。在本教程的后面我们会看到更多关于数字类型的内容。

除法(/)永远返回一个浮点数。如要使用 floor 除法 并且得到整数结果(丢掉任何小数部分),你可以使用 // 运算符;要计算余数你可以使用 %

17 / 3 # classic division returns a float
5.666666666666667

17 // 3 # floor division discards the fractional part
5

17 % 3 # the % operator returns the remainder of the division
2

5 * 3 + 2 # result * divisor + remainder
17
通过 Python,还可以使用 ** 运算符计算幂乘方 [1]:

5 ** 2 # 5 squared
25

2 ** 7 # 2 to the power of 7
128
等号( ‘=’ )用于给变量赋值。赋值之后,在下一个提示符之前不会有任何结果显示:

width = 20
height = 5*9
width * height
900
变量在使用前必须 “定义”(赋值),否则会出错:

try to access an undefined variable

… n
Traceback (most recent call last):
File “”, line 1, in
NameError: name ‘n’ is not defined
浮点数有完整的支持;整数和浮点数的混合计算中,整数会被转换为浮点数:

3 * 3.75 / 1.5
7.5

7.0 / 2
3.5
交互模式中,最近一个表达式的值赋给变量 _。这样我们就可以把它当作一个桌面计算器,很方便的用于连续计算,例如:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用PythonScrapy框架可以非常方便地爬取豆瓣电影的数据。下面是一个简单示例: 首先,我们需要创建一个新的Scrapy项目。在命令行中执行以下命令: ``` scrapy startproject douban_movies ``` 接下来,进入项目目录: ``` cd douban_movies ``` 然后,我们可以创建一个名为`movies`的Spider来定义我们想要爬取的网页和处理数据的逻辑。在项目目录下执行以下命令: ``` scrapy genspider movies movie.douban.com ``` 这会在`spiders`目录下生成一个名为`movies.py`的文件。我们可以在这个文件中编写爬虫代码。 首先,我们需要定义要爬取的网址,在`start_urls`中添加豆瓣电影的首页地址: ```python start_urls = ['https://movie.douban.com/'] ``` 然后,我们需要定义如何解析网页和提取数据。我们可以使用XPath或CSS选择器来定位需要的数据。这里以使用XPath为例: ```python def parse(self, response): # 提取电影名字 movie_names = response.xpath('//div[@class="hd"]/a/span/text()').extract() for name in movie_names: print(name) # 提取评分 scores = response.xpath('//span[@class="rating_num"]/text()').extract() for score in scores: print(score) ``` 在上面的代码中,我们使用XPath选择器来提取电影的名字和评分,并打印出来。你可以根据需要修改这部分代码,比如将数据保存到数据库或文件中。 最后,在命令行中执行以下命令来运行爬虫: ``` scrapy crawl movies ``` 以上就是使用PythonScrapy框架爬取豆瓣电影的简单示例。你可以根据自己的需求进一步扩展和优化这个爬虫,比如添加翻页功能或处理更复杂的网页结构。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值