Python专题
ArcCCcp
这个作者很懒,什么都没留下…
展开
-
Python正则表达式:字符集及内部顺序
1.基础内容[] (中括号)用于描述正则表达式中的字符集,可以通过向字符集内部输入字符来自定义匹配的内容。import reregex1 = re.compile('[ABC]')message1 = "Hello. This is ABC club. A man will serve you then."print(regex1.findall(message1))输出:[‘A’...原创 2019-06-30 12:50:30 · 1652 阅读 · 0 评论 -
Python爬虫初体验(1):利用requests和bs4提取网站漫画
emm……真实的高三暑假是,整天无事可做然后找事,于是开始学习Python好的废话不多说,进入正题由题,作为一名初学者,想要玩转爬虫这类玩意还要花很大功夫。所以我就从简单的开始:提取XKCD漫画(网页简单,提取方便)使用 requests 和 bs4 模块提取网页内容+分析html,然后再存入硬盘内首先,requests 和 bs4 都是 Python 的第三方库,使用 pip...原创 2019-07-18 11:19:49 · 1125 阅读 · 0 评论 -
Python爬虫初体验(2):多线程的应用及爬取中的实际问题
前情提要:Python爬虫初体验(1):利用requests和bs4提取网站漫画前几天有些放松懈怠,并没有做多少事情……这几天要加油了!7月的计划要抓紧时间完成!今天疯狂肝这个程序,算是暑假睡得最晚的一天了……(不过程序仍然有问题)好的废话不多说,进入正题总结了下上次的爬虫体验。虽然能保证稳定下载,但是下载 50 张XKCD漫画花费的时间达到了将近 10 分钟,效率比较低。所以...原创 2019-07-28 23:59:30 · 485 阅读 · 0 评论 -
Python爬虫初体验(3):线程锁,线程同步与异常问题的解决
前情提要:Python爬虫初体验(2):多线程的应用及爬取中的实际问题从来没想过,写一个功能较为完备的爬虫代码,要花好几天的时间……这次算是增长了许多编程经验。好的废话不多说,进入正题上次的代码中,由于部分XKCD漫画有特殊格式(还有 404 彩蛋),而我的代码中 try-except 结构只处理了连接超时的问题,没有对漫画本身的格式变化进行处理,导致线程意外中断。虽然最后写了重试...原创 2019-07-30 23:13:46 · 524 阅读 · 1 评论