python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

http://efonfighting.imwork.net

欢迎关注微信公众号“一番码客”获取免费下载服务源码,并及时接收最新文章推送。

最近几年随着人工智能和大数据的兴起,python也越来越火。一番工作中虽然从没直接要求用到python语言,但由于做linux相关,多多少少会接触一些shell,写一些脚本,而且也会涉及到一些数据处理,一番又没有用惯matlab,所以尝试着用python处理一些工作需求。
在这里插入图片描述
真正用到python之后很快就被python众多的轮子所俘获,确实很容易上手,对开发一些工作中的小工具真的是锦上添花。实现一些跨知识领域的功能也很容易上手。开玩笑的感觉就是python就是给那些没有编程经验的科学家、算法工程师们准备的一种语言。当然,接触一段时间后可以发现,python上手很快,但想要精通和拥有良好的编程习惯和思维,和其他语言是一样的,还是要下一番苦功夫的。所以一番为了成为一个能力全面的(全栈)工程师,业余会用python做一些小工具来达到学习python的目的。
在这里插入图片描述
公众号文章下载这个功能,就是因为现在微信公众号已经成为了最主流的自媒体平台,很多高认知、高质量的人都在公众号上发布文章,特别是技术类的,里面大多数文章很亲民、通俗易懂,甚至有些知识很系统,是我们学习的地方。基于学习的目的,一番决定用python做一个公众号历史文章下载并转换为pdf的功能,把有价值的公众号的历史文章都下载下来,这样能更系统、俯瞰全景的视角去学习。
因为之前没有接触爬虫类的技术,一番完全站在一个小白的基础上,一步一步探索实现方法,终于以一番现有的知识各种取巧的实现了这个功能,有了基础的1.0版本。但功能和稳定性都不高,现在大家看到的这个版本算是改进后的2.0版本,稳定性和速度都有了很大提升。一番准备写一系列文章把这个工具开发过程中涉及到的主要的、有价值的技术分享记录出来。也算是给互联网上技术问题添砖加瓦,当大家遇到相关问题时,百度不至于一无所获,或者遇到只有楼主提问,后来却只有一句让人抓狂的“已解决”的自答。
从git工程历史提交可以看到,一番建立这个工程是在2018年10月24日上传的git,到现在断断续续也有4个多月了,40多笔commit。

commit e92fb63ebc359acda3e1af36b8b05e8b322f7522
Author: efonfighting <efonfighting@126.com>
Date:   Wed Oct 24 16:53:00 2018 +0800
init commit with gzh and url2pdf module ok

里面涉及到知识大概有adb操作,图文识别,目标查找,模拟鼠标键盘,中文乱码,手机粘贴板传递,模拟浏览器,shell操作,抓包,wkhtmltopdf等等,当然还包括为了提供免费下载服务而配套做的网站搭建等等。接下来的系列文章中,一番会逐个介绍其中的各个知识点和自己遇到的坑,以期用一个实际、实用、有意思的项目来帮助想入门python的同学。

下期预告:python爬虫实战-爬取微信公众号所有历史文章 - (01) pycharm使用与工程搭建

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一番码客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值