Python 爬虫
爬虫实践总结
MaoziShan
这个作者很懒,什么都没留下…
展开
-
Python-反爬篇
使用fake_useragent随机构建UserAgentfrom fake_useragent import UserAgentua = UserAgent(verify_ssl=False)def get_header(): return { 'User-Agent': ua.random } 使用代理池import requests# 首先需要配置代理池,具体见:https://github.com/Python3WebSpider/Porx原创 2020-06-10 09:39:21 · 341 阅读 · 0 评论 -
Python-获取CSDN网页内容并输出为pdf
因为老师要求实验报告中附带参考文献原文,所以编写了这个文件。(作业果然是最佳动力Python的pdf工具还是很全的,本次使用了wkhtmltopdf接口因为基本不会报什么错,所以写成了命令行运行形式一次只能处理一个url因为根据自己需要编写的,放到博客上只是给小伙伴们参考思路,根据自己的需求修改~#!/usr/bin/python#@Author: zhongshshimport ...原创 2020-05-02 22:13:08 · 438 阅读 · 0 评论 -
Python-从百度百科上查找对应人名信息并整合下载到本地
最近因为需要整理学者信息,所以编写了个爬虫程序:大致思路是这样啦,代码还没优化,先放着吧import requestsimport refrom bs4 import BeautifulSoup, NavigableStringimport url_managerimport urllibdef get_html(url): headers = { ...原创 2020-05-02 00:56:15 · 1038 阅读 · 1 评论 -
Python-使用python实现pdf2txt
本文的方法主要实现批处理pdf2txt。强推方法二!!!方法一:使用pdfminer3k参考来自GitHub的代码。####################################### tesseract OCRfrom PIL import Imageimport pytesseractdef img_to_str_tesseract(image_path, lang...原创 2020-04-07 12:57:37 · 2200 阅读 · 1 评论