- 博客(39)
- 收藏
- 关注
原创 客户要求用Haskell抓取京东洗衣机商品价格,红包到手
这是个比较不错的客户,平时经常扔点单子过来,今天过来找我说家里想换台洗衣机,让我帮看看整个价格表给他,让他去换台洗衣机,价格在2000-5000元不等,牌子在小天鹅,美的,海尔这几个牌子之间选。剩下就是数据整理了,为了偷懒,把数据中重要的品牌,价格,时间整理放到一个html页面中,每半小时更新一次,这页面就更简单了,直接gpt使用vue.js写就行了。首先要确定需求和目标,这2个都有,那么就把最近半个月内的数据都整理出来,直接上代码; 的列表,其中包含了模拟浏览器的用户代理头。初入江湖,多多包涵。
2023-12-13 14:23:09 462
原创 借用gpt帮自己写个抓取某网站房源信息,业绩翻倍
作为一名销售不可怕,作为一个程序员不可怕,但作为一个会写代码的房产销售就很可怕了。不管是做什么都需要动脑筋,会使很多事情相对简单,这不,最近这业绩搞的自己扛不住,主要是平时很懒,都是坐等各种信息来,从没想过主动求变,主动进攻。看着其他同事手里的房源和单子,在这样下去就得卷铺盖滚蛋了,所以得想点法子了,好在有点以前留存的底子还在,借助现在很流行的gpt协助,轻轻松松搞定房源和价格区间,怎么搞?那还不是用爬虫去爬。欢迎交流和沟通,欢迎私信和留言,不要和一个销售抬杠,不要和一个程序员抬杠。
2023-12-07 14:45:15 460
原创 python爬虫来抓取闲鱼二手机信息,小赚一笔
这些都只是简单的思路,重要的是灵活应用,淘机是不是也很简单,总要给生活多点小插曲,不然生活太单调了,程序员的日子就得多字多样,不然写代码干嘛。虽然海鲜市场现在已经不如以前了,但是还是可以捡漏的,省钱也是赚钱,最近正好有换机的准备,每天刷来刷去的浪费了好多时间,也会进入选择困难症。参考了一些大神的思路写法,写了个简单抓取指定需求的爬虫代码,把自己想要的信息全部列出来。主要列出了以下需求:机型,价格区间,回复率,信用高,个人玩家,一个简单的思路就可以出来。欢迎交流,欢迎私信或平台,广交天下好友,少来抬杠。
2023-12-07 14:29:37 2929 4
原创 python处理pdf中二维码图片,批量生成图片
比如一种pdf页面上有很多二维码,这些二维码比如是用于停车的,每次打开pdf截图或者其他模式存下来,然后扫码使用是不是感觉很麻烦,可以使用python把每个二维码生成图片,然后保存起来使用,当然想方便的话还可以写个页面进行管理。这个代码就不做详细解释 ,也很容易看得懂,还是很方便的,不懂的话就自己问gpt吧,再配合写个页面,可以用vue.js,php代码写个简单的停车券管理系统,妥妥的方便。
2023-12-04 14:58:21 597
原创 php爬虫去抓取京东优惠券代码,事半功倍
没事总分享一些抓取方案的简单代码,实际中爬虫涉及的内容知识点其实很多,一般数据较少或非频繁的时候还是容易处理的。如果抓取的时候时间短或可以外赚费用的时候还是建议可以付费下,建议使用不限量的模式,便宜,可以按天甚至按小时。比如我普通人,关心的是啥,关心的当然是日常用品的存储,现在钱不好挣,这些还是可以日常储备的,比如米,纸,油的生活必须品,为此写个爬虫专门爬自己所需产品的活动优惠券。省钱也是挣钱的一种方式是不是?要学会提出问题,才能更好的应用,大概就是这样 ,欢迎交流沟通,欢迎留言和私信。
2023-12-04 14:44:41 1456
原创 理论与实际相结合,用python抓取化工产品数据
在这个代码中,添加了一个proxies参数来设置HTTP代理,并添加了一个headers参数来模拟浏览器的User-Agent。一个朋友是做化工行业的销售,最近可能业务有点波动,老客户不给力,新客户乏力,自己想看看有没有好的渠道可以取拓展用户,所以一时间他不知道客户来和其他家的市场行情。平时觉的咱这个写代码的好像没多大作用,这个时候就体现出来了,想从平台找到一些销售线索,但是自己去看感觉复杂,而且容易遗漏。大概就写这么点,依照这个基础的代码可以扩展更富的资源,发挥自己的想象吧,在借助gpt的力量。
2023-12-01 15:21:55 454
原创 朋友请帮忙用Perl爬虫写了个抓取公众号内容
今天终于开口了,说公司给他安排了个任务,让他把公众号上好的文章内容整理出来。我大概看了下,内容还挺多,每天都有更新,这要是靠人工搞费力又费神,难怪想到了我,饭不能白吃的,稍微研究了下,写个小程序帮他个忙。上述代码仅提供了一个基础的框架,你需要根据具体的需求和微信的反爬机制进行相应的调整和处理。当用于爬取微信公众号内容时,你需要使用一些额外的工具和技术来处理微信的反爬机制。大概就是这样,可能不够详细,但是先熟悉下整个流程,有什么问题随时留言或私信我,欢迎交流,不要抬杠。首先,我们需要安装curl。
2023-12-01 11:28:10 835
原创 帮亲戚个忙,闲来有事用php写个58商铺出租转让信息抓取
最近亲戚想做点小超市生意,但是又不懂互联网,信息获取有点闭塞。知道我身在互联网大潮中,想让我帮忙看看网上有没有商铺转让的。心想,这不是小菜一碟,大显身手的时候来了,大概去58瞅了瞅,这玩意要我每天帮他刷新信息,获取有用的信息告诉他。以我的性格,我能这么干?这样每天我下班的时候看看数据有啥新变动没,然后去和亲戚唠唠嗑啥的,完美的一天就这么过去了。这个仅供参考,不要来杠啊!只能闲来有事,为了亲戚亲自出马写个抓取程序,你别说,还能用,那还说啥。有啥问题或需求的,直接私信或留言。
2023-11-30 18:03:41 445
原创 业余时间用Ruby写个爬取亚马逊爆品,让自己有机会挣点外快
今天就随便分享一下,个人在亚马逊开店,有部分人在上面寻找一些热门或者爆款的产品,然后放到自己店铺,有用户需要的话就直接去别处下单,然后邮寄过去。请注意,这只是一个基本的示例,实际的网络爬虫可能需要处理更复杂的HTML结构,或者需要处理各种可能出现的错误和异常。但是有更专业的公司,都是爬虫来进行数据整理,批量搞的模式,更高端,咱个人就随便搞搞了,爬一些热门的放上面,然后就等着呗,闲暇之余用ruby写了个简单的代码,仅供参考。一开始,我们需要引入我们的工具:Ruby的Net::HTTP和Nokogiri库。
2023-11-29 11:45:04 367
原创 php爬虫实现把目标页面变成自己的网站页面
最近又被烦的不行,琐事不断,要是比起懒来一个人比一个人懒,但是懒要转换成动力啊,能让自己真正的偷懒,而不是浪费时间。每天还是需要不断的学习的,才能更好的提高效率,把之前做的简单小功能爬虫分享一下,仅供参考,少抬杠!简单小功能和页面尽量在线cdn链接,省事。好了,为了偷懒而做 这个事情,后面遇到相似的问题,都可以用这种方法实现,如果有其他问题欢迎随时留言或私信,拒绝杠精。废话不多说,上代码先。以前的模式每次都整理成execl表格,然后更新,简单太麻烦,所以直接同步抓取更新,对自己和用户来说都很方便。
2023-11-29 11:17:13 971
原创 python如何抓取携程酒店的价格,让工作更简单点
有时候老板没事安排点事,为了偷懒,只能使出大招,毕竟自己不是那么老老实实干活的人,整理数据这类累和繁琐的活,我怎么能轻易动,好在gpt可以帮我来实现,有人可能会说,这么点内容你还不如自己去搞,但是有一点,这个搞熟悉后,遇到类似的事情,下次基本就是秒完成,剩下就是划水。在这个字典中,'http'和'https'是HTTP协议的类型,后面跟着的是代理服务器的地址和端口号。在实际的爬虫程序中,你可能需要处理更多的内容,例如解析HTML文档结构,提取有用的信息,以及处理可能出现的错误和异常。
2023-11-28 17:10:21 2481
原创 Python使用http代理爬取dy视频播放量
现在在gpt的加持下写一些简单的代码还是很容易的,效率高,但是要有一点基础,不然有时候发现不了问题,这些都需要经验积累和实战,最好能和工作结合起来,不然很快一段时间就忘的干干净净了,下面就是简单的pthon的简单使用。请注意,这只是一个基本的示例,实际的爬虫程序可能需要处理更复杂的HTML结构,以及可能的反爬虫机制,例如验证码、IP限制等。首先,让我们导入所需的库,并设置代理信息,以帮助我们绕过某些网站的IP限制。最后,我们打印出播放量,以检验我们的爬虫程序是否成功提取出了所需的信息。
2023-11-28 16:39:15 895
原创 使用 puppeteer 库采集豆瓣音频简单代码示例
在这个程序中,我们首先引入了 puppeteer 库,并定义了 getProxy 函数来获取代理服务器。接着,我们定义了 downloadAudio 函数,用于下载音频。最后,我们编写了 main 函数,用于调用 getProxy 和 downloadAudio 函数。同时,你需要根据实际情况修改代码,以便在页面上查找音频播放器的 DOM 元素并获取其 src 属性。今天要给大家分享的采集代码,主要是使用 puppeteer 库进行编写的,用于采集豆瓣网相关音频。这段代码也是非常的简单实用,一起来看看吧。
2023-10-31 15:05:07 146
原创 Java使用OkHttp库采集电商视频简单代码示例
在这个程序中,我们首先创建了一个OkHttpClient实例,并设置了连接超时、读取超时和写入超时时间。然后,我们使用OkHttpClient的newCall方法创建一个请求,并使用execute方法发送请求。很多朋友经常问我,能不能用OkHttp库的Java编写一个淘宝视频的采集程序,今天它来了!在市面上众多的采集框架中,OkHttp库的应用比较广泛,而且也是非常的稳定,下面的代码示例不知道能不能满足大家的胃口呢?请注意,这个示例代码仅用于演示,我们如果需要使用,那必须根据实际需求修改。
2023-10-31 14:55:31 79
原创 GPT和爬虫有什么区别?如何利用爬虫实现GPT功能
总结起来,GPT和爬虫是两个不同的概念和技术,但是它们可以结合使用来实现一些有趣的功能。通过使用爬虫技术,我们可以从互联网上收集大量的文本数据,然后使用GPT模型对这些数据进行训练,从而提高模型的性能和生成质量。GPT是由OpenAI开发的一种深度学习模型,它通过大规模的预训练来学习语言的统计规律和语义关系,然后可以用于生成各种类型的文本,如文章、对话等。通过使用爬虫技术,我们可以从互联网上收集大量的文本数据,然后使用GPT模型对这些数据进行训练,从而提高模型的性能和生成质量。
2023-07-10 13:08:56 1527
原创 手机切换ip地址会遇的问题以及解决方法汇总
现在,手机切换IP地址是一种常见的操作,它可以帮助用户解决一些网络问题。然而,在进行IP地址切换时,用户可能会遇到一些问题,如连接中断、速度变慢、无法访问特定网站和隐私泄露等。为了解决这些问题,用户可以购买使用工具或代理服务器,清除缓存和重启设备,检查网络设置,以及避免频繁切换IP地址。通过采取适当的措施,用户可以顺利切换IP地址,并享受更好的网络体验。手机切换IP地址是一种常见的操作,它可以帮助用户解决一些网络问题,提高网络连接速度,或者绕过某些限制。然而,在进行IP地址切换时,用户可能会遇到一些问题。
2023-07-07 11:23:49 559
原创 应对Python爬虫IP被封的策略及建议。
4、模拟真实指纹:尽量模拟真实用户的传输控制协议(TCP)或传输层安全(TLS)指纹,不要使用明显的机器人特征,以减少被反机器人系统发现的概率。3、随机化抓取模式:通过随机选择访问页面的顺序和间隔时间,以及不同的链接点击顺序等方式,来模拟真实用户的行为,降低被网站检测到并封禁的风险。5、使用多种用户代理:经常更换用户代理,模拟真实用户的操作系统和软件信息,避免使用相同的用户代理进行大量请求,以免被目标网站封禁。2、动态轮换IP地址:使用IP地址池,并定期将使用过的IP地址更换,这样可以减少被封的概率。
2023-07-05 16:50:42 1465
原创 Java使用http隧道代理的爬虫代码
爬虫技术在互联网数据获取中发挥着重要的作用,而使用代理服务器则能够提供更多的隐私保护和安全性。通过本文所介绍的http隧道代理的Java爬虫代码,相信读者们对如何使用代理服务器来进行网络爬取有了更加深入的了解。在实际开发中,我们可以根据实际需求来对代码进行优化和拓展,以实现更加高效和安全的数据获取。Java爬虫使用Apache HttpClient3.1库编写的Java爬虫代码,其中使用了http隧道代理来访问目标网址。【关键词】Java爬虫,http隧道代理,Apache HttpClient。
2023-07-05 16:23:46 327
原创 使用HTTP隧道代理的Python爬虫实例
通过上述代码实例,我们学习了如何使用Python的requests库和HTTP隧道代理来访问目标页面。首先,我们设置了目标页面的URL,并指定了代理服务器的主机和端口。然后,我们构造了代理服务器的URL,并使用proxies参数将其传递给requests库的get()方法。最后,我们打印了响应的状态码和内容。在网络爬虫的开发中,有时我们需要使用代理服务器来访问目标页面,以便实现IP的切换和隐藏真实的网络请求。通过使用requests库和HTTP隧道代理,我们可以更好地实现爬虫任务的稳定性和可靠性。
2023-07-05 15:39:01 1712
原创 python使用Scrapy项目添加代理中间件的步骤和代码实现
在项目中新建middlewares.py文件(./项目名/middlewares.py)修改项目配置文件 (./项目名/settings.py)
2023-07-05 15:06:18 302
原创 centos系统宽带拨号pppoe自动更换IP脚本
测试代码里面用到了一些sleep来做延迟,实际操作中适当调整sleep的值来达到最优的效果。
2022-11-17 10:30:52 1283
原创 python批量检测隧道HTTP代理是否正常
由于插件的问题,所有带“#”号开头的语句格式会错位,请自行调整下即可。分享一段python脚本检测隧道HTTP代理状态的脚本。具体以上请根据自己实际信息修改。
2022-11-02 13:47:33 213
原创 bat批量检测HTTP代理是否正常
原理是:通过bat来批量执行curl命令访问ip网站httpbin.org/ip,正常ip返回的说明代理正常。我们可以使用curl来批量检测代理是否正常,适合隧道HTTP代理的检测。命令格式:curl -x HTTP代理 目标网站。下面为简单的示例,具体信息根据实际情况自行修改。保存为bat文件,执行即可。
2022-10-24 09:10:44 914
原创 DNSPod 查看域名解析的 domain_id 和 record_id
本文介绍调用 API 获取 DNSPod 域名解析需要的 domain_id 和 record_id 参数的方法,所有的 DNSPod API 请求都必须提供 login_token作为公共参数以验证用户身份是否合法。使用英文 ,将 ID 和 Token 连接起来即公共请求参数 login_token。根据响应中的 records 得到子域名记录对应的 record_id。根据响应中的 domains 得到域名对应的 domain_id。获取 domain_id。获取 record_id。
2022-10-08 10:40:30 1571
原创 centos系统进行pppoe拨号
linux系统进行pppoe拨号教程,一般应用场景为企业用户大数据方案中所涉及,简单易用,可根据此操作进行更多功能的开发,主要拨号网口的选择及拨号间隔,可更有效的利用拨号云主机进行业务调度。
2022-09-30 10:51:47 1570
原创 DNSPOD实现DDNS动态域名解析功能
DDNS的应用范围还是比较广的,适合那些拨号是动态ip的场景使用如:远程家里的监控,电脑等,适合公网IP,在某些应用场景必备。
2022-09-29 12:28:42 1916 2
原创 爬虫业务windows系统搭建私有ip池
因数据抓取业务需要,需自建自有的私有IP池,我这里为了维护简单和使用方便,选择使用了隧道模式的HTTP。
2022-09-29 11:53:42 753
原创 PPTP的使用
win7系统安装pptp打开网络和共享中心,选择设置新的连接或网络,连接到工作区使用我的Internet连接(VPN)(I)地址栏输入主机ip地址输入pptp的账号密码,记住密码,选择连接,连接成功后可正常使用
2017-12-19 11:55:57 5293
原创 浏览器使用代理
一,IE浏览器使用代理1.打开ie浏览器,选择工具,2.打开internet选项,选择连接,打开局域网设置3.选择使用代理服务器,然后输入代理的ip和端口,点确定4.点击确定,刷新网址后会弹出登陆框,输入派克斯账号和密码,确定后便可正常使用。
2017-11-10 12:46:27 7917
原创 宽带连接新建提示711,宽带连接显示不可用,找不到设备,拨号提示797错误
超级大招:点击开始,再点击运行,然后再输netsh winsock reset,回车,重启就好了XP的用户是不会出现这个问题的,win8客户也不会出现,只针对win7!!!如果这样都没好的话,你就只能重装系统了图显示的几种情况:
2017-11-09 10:09:20 2955
原创 windows系统下派克斯(PacketiX)产品使用教程
派克斯教程派克斯下载地址:Packetix v4.20 RTM正式版https://www.duoip.cn/downloads/packetix-client-windows.rar一、安装派克斯程序、安装文件如图:、双击安装,一直下一步默认选择,安装完成后双击打开如下图:第一步,新建虚拟网络适配器,也就是虚拟网卡第二步:名字默认即
2017-11-08 15:28:30 6522
原创 平台使用
一,账号注册1、在 [www.duoip.cn](https://www.duoip.cn) 首页点击“注册”按钮;2、请填写用户名,邮箱,密码,验证码,然后确认注册;登陆成功后,即可自助购买和管理相关产品。> 注:如果您无法正常注册,或者始终无法收到验证邮件,请联系华科云商客服sales@duoip.cn
2017-11-08 13:29:14 354
原创 派克斯常见问题
## 常见问题[TOC]#### 一、派克斯常见问题* 错误代码1![](image/screenshot_1481695153949.png)> 解决方法:请检查主机名,端口,虚拟HUB名填写是否正确,网络是否正常,如需帮助请联系客服协助!* 提示认证类型错误![](image/screenshot_1481695316435.png)
2017-11-08 11:06:08 1532
win10优化工具Optimizer-10_9
2022-09-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人