爬虫
文章平均质量分 80
Blogfish
想要得到未得到的东西,就要做从未做过的事情....我热爱学习,热爱分享,你不亏待我,我也不会辜负你的期望~
展开
-
Python3连接SSH服务器并下载日志文件
ssh原创 2022-02-17 18:20:50 · 13383 阅读 · 0 评论 -
爬虫之巨潮资讯网关键词信息获取
今天分享一下对巨潮资讯网一些信息的爬取是如何做的,首先选择这个网站是因为网站内容还是相对来说比较简单的,主要是页面的元素比较容易定位的。主要用到的知识点还是用到“非贪婪匹配符号”的应用。核心:正则库:import re非贪婪匹配:.*?正则函数:sub()符号处理:strip()、split()其他库:selenium webdriver(是从浏览器操作的,这个是必须要有的)实现过程如下:from selenium import webdriverimport red原创 2021-10-31 15:33:52 · 31244 阅读 · 2 评论 -
Python3数据挖掘之百度资讯搜索数据并入库(最新)
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/8/22 13:07# @Author : Jianhua Wang# @Site : # @File : 最新百度爬取并存入数据库代码.py# @Software: PyCharmimport requestsimport reimport pymysqlheaders = {'User-Agent': 'Mozilla/5.0 (Window.原创 2020-08-22 13:34:04 · 406 阅读 · 0 评论 -
使用python-docx将爬取结果保存到word
如题实战内容需要满足的插件库是python-docx==0.8.10 这个在python3 里面绝对是支持的。需要注意的是如果你本地安装了docx建议先卸载docx,然后去官网下载python-docx==0.8.10 版本,本地使用python命令进入插件目录安装即可。本期题目还是以爬虫案例为主,数据是数据库爬取好的,通过日期提取数据库中的关键内容并写入Word文档中。关于爬虫及数据保存大家可以参考本人之前的博客,整个过程都有详细讲解。下面是本期的主要实现代码import docxfr..原创 2020-11-29 10:50:00 · 5570 阅读 · 1 评论