爬虫
文章平均质量分 89
python爬虫学习总结
梦想闹钟
这个作者很懒,什么都没留下…
展开
-
Datacon21 参赛总结
这次参加了软件供应链以及域名两个方向,都是第10名本篇主要记录一下域名方向的做题记录域名方向主要分两个题目,第一个题目是给你一堆黑产域名,需要判断域名所属的黑产家族,以及涉黄涉赌的情况。第一题主要考验的是爬虫的构造,以及信息的获取方式。我暂时发现了可以通过以下几种方式来识别黑产网页:Js特征:在静态请求网页的时候,能在网页源码里看到形如下图的百度的站点统计代码,通过正则表达式筛选出js?后面的长段字符串,相同的网页的这种字符串也是相同的,通过这种方式识别恶意网页家族速度较快,效果很好。图片原创 2021-11-01 10:39:45 · 569 阅读 · 0 评论 -
爬虫 爬取ip池代理
IP地址取自国内髙匿代理IP网站:http://www.xicidaili.com/nn/from bs4 import BeautifulSoupimport requestsfrom urllib import requestimport refrom threading import Threadip_availavle = []def get_headers(): ...原创 2020-08-13 08:49:02 · 407 阅读 · 0 评论 -
selenium学习爬取京东网页数据
程序:from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom sel...原创 2020-08-13 08:50:49 · 346 阅读 · 0 评论 -
python3爬虫,AJAX爬取近日头条关于南京的新闻
在近日头条里搜索南京,在返回的页面里搜索“南京”发现并没有搜索到结果在xhr选项里搜索,能找到对应的项目然后往下拖拽页面,发现有新的项目加载出来,继续查看其实直接右键-open in new tab能看得更清楚一些https://www.toutiao.com/api/search/content/?aid=24&app_name=web_search&offs...原创 2020-08-13 08:51:08 · 310 阅读 · 0 评论 -
python3爬虫-正则表达式
正则表达式首先要导入re库其中常用的函数:compile函数格式为re.complie(pattern[, flags])pattern : 一个字符串形式的正则表达式flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:re.I 忽略大小写re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境re.M 多行模式re.S 即为’...原创 2020-08-13 08:49:26 · 363 阅读 · 0 评论