动态导包
-
getattr()
函数对象 = getattr(类对象, 函数名称字符串) # 返回的函数没有被调用
类对象 = getattr(模块对象, 类名称字符串)
函数对象 = getattr(模块对象, 函数名称字符串) # 模块/函数
变量 = getattr(模块对象, 变量名字符串) -
importlib.import_modle(模块路径字符串)返回模块对象 # py文件对象
模块路径字符串 = ‘xx.xxx’ # xxx是个py文件!
模块路径字符串如果是一个相对路径的话,根据从哪里执行就从哪里导入来确定路径字符串!
包(python package)–>模块(xx.py)–>类(class)–>函数(def)–>变量
包-包-模块-类/函数/变量
模块-类-变量
关于爬虫去重
请求去重
数据去重
一致性检查
硬匹配
url a == url b
特征值
hashlib(a) == hashlib(b)
载体去重
索引
set
相似性检查 你妈喊你回家吃饭 vs. 你妈叫你回家吃饭
simhash 大文本有效 500kb
抽签算法 短文本