1.enumerate(sequence, start=0)函数
枚举函数,传入一个序列或迭代对象,枚举输出一个序号对象。
可用于对序列数据进行编号。
2.字符串的split()方法和strip()方法
同属字符串对象的方法。
split()方法用于指定分割字符并返回一个字符串列表。
strip()方法用于去除掉首位的指定字符串并返回处理好的字符串
3.mongodb使用
安装mongodb,从官网下载mongodb对应deb包:
#安装mongodb,从官网下载mongodb对应deb包:
dpkg -i 安装包
#启动mongodb:
service mongod start
#安装pymongo依赖,等价于安装一个连接mongodb的client:
pip install pymongo
#安装PyChar的mongodb插件:
#软件内setting->plugins->MarketPlace->search mongodb plugin
使用mongodb:
import pymongo
client = pymongo.MongoClient('localhost', 27017) #连接至数据服务器
database = client['database'] #连接至数据库
table = database['table'] #打开数据库下的表
table.insert() #在该表插入数据
table.find() #在该表查询数据
'''
查询数据库条件为字典形式,数据匹配有<,>,<=,>=,!=几种等式
表示方法为$lt,$gr,$lte,$gte,$ne
比如查询数据库中年龄小于20岁则可写成
table.find({'age':{$lt:20}})
'''
client.drop_database('database') #删除数据库
4.tag类型的处理方法
对应tag类型的方法
string:获取目标下第一个文本字符串,返回字符串
strings:获取目标下所有子孙标签的文本字符串,返回迭代器
stripped_strings:获取目标下所有子孙标签的文本字符串,并去除掉空文本,返回迭代器
get(str):获取指定标签内对应str的值
get_text():获取目标下所有子孙内容,包含HTML格式内容,返回字符串
text():获取目标下子孙内容的非标签内容,返回字符串