爬虫
文章平均质量分 71
liuyukuan
擅长RDA(Robotic Desktop Automation)、数据处理、工具优化;致力于简化工作、提高效率!Geek
展开
-
[AHK]从QQ音乐网站下载歌曲
步骤1:用谷歌或火狐浏览器 登录QQ音乐-千万正版音乐海量无损曲库新歌热歌天天畅听的高品质音乐平台!步骤2:搜索一首想下载的歌曲 ,搜到之后点击下载按钮步骤3:按F12打开调试窗口步骤4: 复制链接地址我这边复制的地址如下:https://dl.stream.qqmusic.qq.com/C400001y6GqB07XIjq.m4a?guid=5667041350&vkey=28D8C563642D4472AB87EFFE2A6CC50771EFCB46D..原创 2021-12-25 23:12:04 · 3552 阅读 · 0 评论 -
程序化交易DIY
原始需求:用某日14:55股价跌破MA5指标作为卖出策略,驱动自动卖出交易。分解需求:一、定时14:55,从新浪获取当日股价x二、计算MA5的值y1、以14:55的价格作为当日收盘价,参与MA5计算2、从网易获取前4日收盘价,参与MA5计算三、判断(x<y) 则用AutoHotkey驱动交易软件自动填单卖出问题与挑战:一、量化不复权,交易不赚钱因分红或送股导致除权,会造成价格的大幅下挫,如果直接用会造成策略或者回测有问题。前复权将除权日之前的价格向下调整以使原创 2021-02-16 11:20:27 · 1180 阅读 · 1 评论 -
爬虫神器PyQuery的使用方法
pyquery前文 PyQuery库官方文档 pyquery的初始化 字符串初始化 URL初始化和文件初始化 基本css选择器 查找元素 子元素 父元素 祖先节点 兄弟元素 遍历 获取信息 获取属性 获取文本 获取html DOM操作 attr、css 伪类选择器首推官方文档:http://pyquery.rea...转载 2019-11-17 19:56:50 · 371 阅读 · 0 评论 -
python requests模块给发送参data默认就会urllib.parse.quote_plus进行编码,无需自己手动处理
爬取网站数据时,用到了国外的手机号登录。自以为是的,对+1xxx形式的参数进行了urllib.parse.quote_plus,然后总是不成功,最后使用burpsuite抓包比对。发现多了个%25 一查,知道了是对%进行了urlencode,明白了requests自己会默认对参数data进行url编码。去掉自己画蛇添足步骤就好了。...转载 2019-11-17 16:44:22 · 351 阅读 · 0 评论 -
Python网络爬虫神器PyQuery的使用方法
前言pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好,和它差不多的还有BeautifulSoup,都是用来解析的。相比BeautifulSoup完美翔实的文档,虽然PyQuery库的文档弱爆了, 但是使用起来还是可以的,有些地方用起来很方便简洁。PyQuery库官方文档 初始化为PyQuery对象 ...转载 2019-11-17 14:01:41 · 1763 阅读 · 0 评论 -
Python3爬虫 爬句子迷
看到金山毒霸护眼助手在锁屏时显示一些心灵鸡汤句子,突然想记录下来,发现多数是来自句子迷。遂在网上找来相关爬虫代码,改成python3语法的。囧,反爬虫了 要么爬到的是乱码、要么403。#!/usr/bin/python# -*- coding: utf-8 -*-# 获取经典句子import requestsfrom bs4 import BeautifulSouphead...原创 2018-12-22 19:30:32 · 1458 阅读 · 2 评论 -
[AHK]从time.tianqi.com获取时间
;作者:sunwind;日期:2017年12月21日21:07:33;功能:从time.tianqi.com获取时间#SingleInstance,forceurl=http://time.tianqi.comwhr := ComObjCreate("WinHttp.WinHttpRequest.5.1")whr.Open("GET", url, true)whr.Send()wh原创 2017-12-21 21:12:05 · 1799 阅读 · 0 评论 -
[Python]使用TuShare能获取到哪些信息?
windows下先前装了Anaconda3,然后用pip 直接装tushare即可。测试tushare, 试试票房数据先再看我们公司股票居民消费指数,可以通过ts.get_cpi()函数获取(一次会获取322条,部分展示)ts.get_latest_news()函数可以查看最近的新闻,会返回80条原创 2017-10-22 20:31:35 · 3491 阅读 · 0 评论 -
[AHK]Bing Desktop Wallpaper Changer(必应壁纸随心换)
先来个【简版的bing壁纸】Winhttp := ComObjCreate("WinHttp.WinHttpRequest.5.1")Winhttp.Open("GET", "https://cn.bing.com/HPImageArchive.aspx?format=js&idx=0&n=1",true)Winhttp.Send()Winhttp.WaitForR...原创 2017-06-23 23:44:16 · 2322 阅读 · 1 评论 -
[AHK]Dictionary Search
Preforms a dictionary search at Dictionary.com of the highlighted text or text input if no text is highlighted. The results are trimmed down and displayed in a Gui using an ActiveX control.Whe翻译 2017-06-25 21:25:21 · 718 阅读 · 0 评论 -
简单的python爬虫——贴吧上取邮箱
这是一个比较简单的爬虫,只用到了两个简单的库re和urllib, 程序使用的是python2.7 urllib模块是用来获取原文网页, re模块是用来匹配特定的字符的, 1.获取链接的最后一页html = urllib.urlopen(url).read()reyuan = r'尾页'recom = re.compile(reyuan)refind = re.findal转载 2017-06-23 08:44:39 · 651 阅读 · 0 评论 -
爬虫的自我解剖(抓取网页HtmlUnit)
http://www.cnblogs.com/luotinghao/p/3800054.html网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下:1234final WebClient webClien转载 2016-12-11 22:45:56 · 867 阅读 · 0 评论