python spider的技术总结

本文总结了Python爬虫的相关技术,包括模块的组织、代理安装、编码声明以及Python 3.6以上版本的下划线数字分割。同时介绍了多线程的使用方法,如使用_thread库创建新线程,并提供了示例代码。
摘要由CSDN通过智能技术生成
  1. python模块内需要有_init_.py 才会被扫描成python包进而可以调用,因python版本不同,这一特性时有时无
  2. 挂代理pip install XXX -i https://pypi.tuna.tsinghua.edu.cn/simple
  3. python注释中出现中文可能出现无法通过解释器,需要在首行申明 # coding:utf-8,或者IDE上作全局解释
  4. Python 3.6以上版本的新增特性,可以用下划线来分割数字以提高可读性,例如:
    dec_base = 1_000_000
    bin_base = 0b_1111_0000
    hex_base = 0x_1234_abcd
    ———————————————————————
    ———————20210119———————————
  5. _thread.start_new_thread(fun(),argus[],kwargs[]):简单的创建新线程。
    demo:
    for i in range(1, task_num):
        try:

            _thread.start_new_thread(run, ("https://m.bilibili.com/space/" + str(i),))
            _thread.start_new_thread(run, ("https://m.bilibili.com/space/" + str(i + task_num),))
            _thread.start_new_thread(run, ("https://m.bilibili.com/space/" + str(i + 2 * task_num),))
            _thread.start_new_thread(run, ("https://m.bilibili.com/space/" + str(i + 3 * task_num),))
        except Exception as e:
            logging.error("thread initialization error" + e)

  1. argus与kwargs 均表示不定长参数,kwargs是key-value形式,参考一下代码
def print_values(**kwargs):
    for key, value in kwargs.items():
        print("The value of {} is {}".format(key, value))

print_values(
    name_1="Alex",
    name_2="Gray",
    name_3="Harper",
    name_4="Phoenix",
    name_5="Remy",
    name_6="Val"
)
  1. 单行 return 相当于 return none

———————————————————————
———————20210120———————————

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值