自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 excel二级联动制作

在excel表中设置二级联动

2023-01-13 11:21:00 3496

原创 SPSS软件安装与常见入门问题

spss

2022-08-24 11:32:55 1739

原创 台式机增加内存条流程

加内存安装后序列号网上随便搜补充:上述主板最大支持内存也可以通过AIDA64确认:“计算机-DMI-内存阵列-系统内存”如图显示有两个内存插槽接上重点查看内存类型和频率,扩展内存重点考虑兼容性问题,尽量选用同品牌同型号的内存条。实践时补充。......

2022-06-14 16:01:57 5313

原创 python与oracle的交互——cx_Oracle安装与操作

文章目录前言一、cx_Oracle下载二、cx_Oracle安装1.解压文件后扔到python安装目录下2.总结前言使用爬虫等操作的最终目的是存入数据库方便日后处理,这就涉及到一个新的模块:cx_Oracle一、cx_Oracle下载下载地址:cx_Oracle 8.1.0二、cx_Oracle安装1.解压文件后扔到python安装目录下2.总结...

2021-04-08 16:43:11 10252

原创 摸鱼技巧:PanicButton一键隐藏页面

文章目录前言一、下载二、安装1.引入库2.读入数据总结前言panicbutton:引入的原因很简单,不管当前正在查看什么网页,一键点击插件(或者设置快捷键),在老板到桌面前“毁尸灭迹”,只展示你想展示的浏览页面(自定义“安全页面”)提示:以下是本篇文章正文内容,下面案例可供参考一、下载下载地址:PanicButton_v0.14.2.2.crx二、安装(一)打开chorme的扩展程序(二)将下载的crx文件拖动到空白界面安装(三)如果提示程序包无效“CRX_HEADER_INVA

2021-04-07 10:20:22 2034

原创 爬虫工具之selenium(五)-建立代理IP池

主要思路是分两步:第一步判断代理IP是否有效,第二步爬取免费网站代理IP,第三步循环判断爬取的代理IP是否有效第一步:判断代理IP是否有效proxies:代理,分为http与https两种,爬取不同网站时需要选用不同类型的proxies,只有当proxies类型与想访问的网站类型相同时代理ip才会起作用,否则request请求使用的是你真实的ip地址,参考代理IP中的 proxies 介绍及使用re.findall():返回string中所有与pattern相匹配的全部字串,返回形式为数据,详细用法参

2021-03-18 10:09:09 1811 2

原创 爬虫工具之selenium(四)-Chrome Options参数

这一章学习Chrome Options,主要参考Selenium笔记(2)Chrome启动选项from selenium import webdriverfrom selenium.webdriver.chrome.options import Options# 实例化一个启动参数对象chrome_options = Options()# 使用add_argument()方法添加启动参数chrome_options.add_argument('--window-size=1366,768')

2021-03-17 11:01:12 11293 3

原创 爬虫工具之selenium(三)

常用浏览器打开网址:from selenium import webdriver#启动谷歌浏览器browser=webdriver.Chrome()browser.get('http://www.baidu.com/')#启动火狐浏览器browser=webdriver.Firefox()browser.get('https://www.douban.com')#启动IE浏览器browser=webdriver.Ie()browser.get('http://www.taobao.c

2021-03-16 17:33:38 125

原创 爬虫工具之selenium(二)

进行代码调试时:from selenium import webdriverc=webdriver.Chrome(executable_path=r'C:\Program Files\Google\Chrome\Application\chrome.exe') #获取chrome浏览器的驱动,并启动Chrome浏览器c.get('https://www.baidu.com')#打开百度print('成功')出现错误信息:只能打开chrome浏览器,但无法打开指定的网址1.检查host文件

2021-03-16 16:50:32 213 1

原创 Module ‘***‘ has no ‘***‘ member pylint(no-member)

调试代码的时候反复出现以下提示:下载pylint-2.7.2-py3-none-any.whl (342.9 kB)解压后扔到python安装目录site-packages文件夹在用户设置中添加pylint路径:一、打开settings.json文件,(https://blog.csdn.net/andyL_05/article/details/104916557)1.ctrl+shift+P输入setting,选择如下:2.添加路径,参考资料"python.linting.pylintP

2021-03-16 11:54:24 274

原创 爬虫工具之selenium(一)

下载selenium-3.141.0-py2.py3-none-any官方文档前期准备:需要先下载一个chormedriver:http://npm.taobao.org/mirrors/chromedriver/否则会出现类似如下报错信息:selenium.common.exceptions.WebDriverException: Message: Service C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chr

2021-03-13 21:40:23 343

原创 爬虫框架Scrapy(西瓜皮)

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。详细介绍见初窥Scrapy下载Scrapy-2.4.1-py2.py3-none-any.whl (239.7 kB)下载完把尾缀“whl”修改为“zip”,解压后扔到pytho

2021-03-11 18:02:00 258

原创 wps文本转超链接

应用背景:用爬虫将一个网站的文章以及网址导入到excel,但是无法快速打开网址一、对于少数单元格的转换直接选中单元格后点击F2二、对于多个单元格的转换一般超链接是在同一列,则按住shift然后选中开头的一个单元格,再点击最后一个单元格,再点击“工具-文本转换成超链接”三、取消超链接选中待取消的超链接,右键“取消超链接”...

2021-03-10 11:44:43 1937

原创 解决戴尔电脑禁用无线网络问题

今天猫踩过键盘后发现无线功能用不了了,页面显示:搜索了一下解决方法:一、更改适配器设置右键网络标志-打开网络和共享中心-更改适配器设置选择无线网络连接,点击禁用后重新启用结果:失败二、重启网络适配器“win+R”调出运行输入“devmgmt.msc”打开设备管理器,展开网络适配器,禁用后重启结果:失败三、开启功能快捷键网上推荐的方法除了以上两种外,就主要是考虑硬件问题了。仔细查看了Windows网络诊断的详细信息:提示的修复选项是:启用无线功能若要启用该计算机上的无线功

2021-03-05 23:35:17 6842 1

原创 爬虫协议

这几天在爬网站时发现有个别网站抓取时返回值为None、[ ]甚至是字段中返回“系统错误”等字眼),反复确认代码无误,怀疑是网站有反爬虫机制,尝试增加header后依然无法提取,考虑到只是提取本页面数据,并没有频繁抓取数据,应该与抓取频率无关。尝试查看网站的爬虫协议:Robots 协议(也称爬虫协议,机器人协议)是互联网爬虫的一项公认的道德规范,全称是“网络爬虫排除标准(Robots exclusion protocol)”,这个协议用来告诉引擎,哪些页面是可以抓取的,哪些不可以。搜索引擎蜘蛛访问网站时

2021-03-05 11:15:38 3752 1

原创 爬虫实例之豆瓣电影排行榜

from bs4 import BeautifulSoupfrom lxml import htmlimport xmlimport requests#不加头部直接爬取的话,返回值为空headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'} url = "https://movie

2021-03-03 10:13:53 259 1

原创 Python爬虫获取网页数据笔记(一)

测试

2021-02-24 14:37:43 2160

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除