【Scrapy实战】0206笔记——正则表达式,环境配置

爬虫基础知识

 

一、技术选型:scrapy

Scrapy是框架,已经加入了request和beautifulsoup,性能很高。

 

二、正则表达式

1.

import re

line = "luca123"
"""
^l:代表以l开头
.:代表任意字符
*:代表前面的字符重复任意多次
^l.*:l字母为开头,后面的字符出现任意多次
"""
regex_str = "^a.*"
if re.match(regex_str, line):
    print('yes')
else:
    print('no')

 

2.

3$:$是指结尾,3$指必须要以3来结尾
regex_str = "^l.*3$"
if re.match(regex_str, line):
    print('yes')
else:
    print('no')

 

3.

?:非贪婪匹配,从左边开始,遇到第一需要的字符

 

4.

{2}:限定前面的字符出现的次数,2
{2}:出现2次以上
{2,5}:出现2次到5

 

5.

|:实际上就是或关系

 

6.

[]:[abcd][0-9]中的任何字母,数字,字符都可以都可以

 

 

7.

\s:空格
\S:只要不是空格都可以

 

8.

\w:任意字符(满足数字,字母,下划线)
\W:非任意字符(满足数字,字母,下划线)

 

9.

[\u4E00-\u9FA5]:提取中文
 

 

 

 

三、不同python环境安装虚拟环境

1.mkvirtualenv --python=E:\Python35\python.exe env_scrapy
2.pip install -i https://pypi.douban.com/simple/ scrapy
3.https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应确实的版本lxmltwisted
4.选择正确的版本:Twisted-17.9.0-cp35-cp35m-win_amd64.whlcp35表示对应的python3.5版本
5.新建scrapy项目:
        1)在虚拟环境下,进入安装目录(env_scrapy) E:\project\python>
        2)scrapy startproject Spider

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值