![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
huanglv997
这个作者很懒,什么都没留下…
展开
-
【Python】批量从doc简历中提取出需要的信息
最近帮公司HR从智联招聘下载简历录入信息,写了个小程序自动录入。第一步 把doc文件转为txt文件 因为doc文件中嵌套大量隐藏表格,超链接之类的格式,用docx这个库读取时很多信息显示不出来(也可能是我不会),就想到把doc转换为无格式的txt文件。第二步 从txt文件中提取信息 转换为txt后惊喜的发现不同文件的相同信息基本都在相同的位置,比如姓名、性别; ...原创 2020-03-14 16:52:28 · 2000 阅读 · 1 评论 -
【爬虫基础】jQuery信息在url中是个啥
我也不知道。。。。。。但有了jQuery,无法解析并提取信息。解决方式:http://push2.eastmoney.com/api/qt/clist/get?pn=2&pz=50&po=1&np=1&ut=b2884a393a59ad64002292a3e90d46a5&fltt=2&invt=2&fid0=f4001&fid...原创 2020-02-28 21:54:02 · 355 阅读 · 0 评论 -
【爬虫基础】爬取学校官网分页招聘信息
**爬取某学校就业网站招聘信息**用到的包from urllib.request import urlopenimport requestsimport json一、获取不同页面的url在页面点击F12,通过network中获取不同网页的url,观察区别1st page:Request URL: http://job.ustb.edu.cn/front/zp_query/zp...原创 2020-02-28 21:24:01 · 2370 阅读 · 0 评论