爬虫
数学工具构造器
这个作者很懒,什么都没留下…
展开
-
爬虫HelloWorld:爬取博客园某博主所有文章
先定一个小目标:爬取所有文章标题,其他的属性以后再操作代码import requestsfrom bs4 import BeautifulSouplink = "http://www.cnblogs.com/planche/default.html"headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win...原创 2018-05-01 00:07:00 · 696 阅读 · 0 评论 -
使用selenium爬取动态网页评论
爬取网站:http://www.santostang.com/2017/03/02/hello-world/首先定位到frame:通过Ctrl+Shift+C定位,并且搜索frame,定位框架所在位置: 找到HTML代码: < iframe title = "livere" scrolling = "no" src = "https:/...原创 2018-05-02 21:57:57 · 818 阅读 · 0 评论 -
selenium表单提交
用百度搜索引擎进行搜索用谷歌搜索引擎进行搜索使用百度翻译用百度搜索引擎进行搜索from selenium import webdriverfrom selenium.webdriver.firefox.firefox_binary import FirefoxBinaryimport oslink='''https://www.baidu.com/'''...原创 2018-05-05 13:38:51 · 399 阅读 · 0 评论 -
小工具:根据剪切板中的url生成markdown代码
参考博客:爬CSDN博客 - CSDN博客在博客写作中,我经常遇到这样一个问题:当我需要挂出一些网站链接,比如参考博客或者OJ链接的时候,需要用这样 [爬CSDN博客](https://blog.csdn.net/qq_17172105/article/details/53931874) 的markdown语法形式去展示。但是复制网页标题和url的操作十分繁琐,也十分麻瓜。于是我用...原创 2018-06-01 15:50:54 · 696 阅读 · 0 评论 -
解决selenium传入cookies错误:InvalidCookieDomainException: Message: Cookies may only be set for the curre
这是因为cookies的domain不同造成的。去掉含有多余domain的cookie,不再报错。def getPureDomainCookies(cookies): domain2cookie={} #做一个域到cookie的映射 for cookie in cookies: domain=cookie['domain'] if domain ...原创 2019-04-11 13:27:18 · 16971 阅读 · 0 评论 -
爬取某github用户所有repo
from selenium import webdriverprofile=webdriver.FirefoxOptions()profile.add_argument('-headless') #设置无头模式browser=webdriver.Firefox(options=profile)user='用户名'url=f'https://github.com/{user}?tab=...原创 2019-04-12 10:01:09 · 662 阅读 · 0 评论 -
项目:对github的repo进行树形分类
文章目录需求编码数据获取数据存储repo_mysql.pyscrap_github.py树形归类成果需求数据获取使用selenium从github爬取repo信息,为5元组(url,name,lauguage,description,fork)数据存储存放在关系型数据库github_repo_db中,对于用户username,存放在表username中,name为主属性,表结构为(ur...原创 2019-04-15 14:18:56 · 535 阅读 · 0 评论