简单实用的企业舆情安全解决方案

莫慌搞安全

已于 2024-07-17 15:58:46 修改

阅读量446

点赞数 3

分类专栏： # python脚本安全开发文章标签： oracle 网络数据库安全开发

于 2024-07-17 15:43:24 首次发布

本文链接：https://blog.csdn.net/u014247926/article/details/140496118

版权

python脚本安全开发专栏收录该内容

14 篇文章

订阅专栏

前言：企业舆情安全重要吗？其实很重要，尤其面对负面新闻，主动处理和应对，可以掌握主动权，避免股价下跌等，那么如何做使用简单实用的企业舆情解决方案呢？

背景

好了，提取词写完了，直接说干货，首先说这件事的背景。公司是一家国内的企业，但是竞争对手全球都有，且最近忙着上市，负面信息呲呲往出冒，老板这个担心呐，想要一个企业舆情监控，掌握公司的一些新闻动态动态，重点还要有情感分析，而且重点说了，没有一点经费，好嘛，所有的商业舆情软件都不能考虑了。

基于这种0经费的舆情监控，作为一个工作10来年的安全员，自然是不能说自己不行，大不了我天天搜索引擎搜，然后抓新闻比对么。我绞尽脑汁的研究，还真的发现一套免费的方案。

方案

1.基于企业X通、X查查、爱X查等类型软件获取企业的各种经营预警信息，官方接口是需要付费的，不付费可以看（嘿嘿）,甚至可以发邮件。这方法不就来了么。代码不能放（有协议），效果放一半大家看看

2.基于google alerts 全网搜常规企业新闻，类似于我们自己手动用搜索引擎搜索，只是google alerts把它自动化，首先要有一个google alerts账号，设置关键词，然后选择RSS发送或者邮件发送，关键词可以设置自己公司，也可以设置竞争对手公司，谷歌爬虫的强大，咋说呢，我拿我女神刘亦菲做测试，效果自己看。

RSS爬虫核心代码我就给大家放出来了，为啥敢放，因为RSS爬虫方案需要代理，而代理要钱，所以这个方案就放弃了。企业我使用的是邮件爬虫，不要钱，不是更好o(╥﹏╥)o，但是因为企业内部用，也就不能放出来。

# 核心代码，去掉了逻辑部分，数据库插入部分，和多组RSS部分，其实很简的，下面的可以执行单条RSS，自己按照自己需求改改就行了
import urllib.parse
try:
    with socket.create_connection((PROXY_HOST, PROXY_PORT), 3) as sock:
        sock.close()
        os.environ['HTTP_PROXY'] = "http://"+PROXY_HOST+":"+str(PROXY_PORT)
        os.environ['HTTPS_PROXY'] = "http://"+PROXY_HOST+":"+str(PROXY_PORT)
except socket.error as e:
    print(f"err:{e}")
    print("访问代理失败，退出采集程序")
    exit(1)
def extract_target_url(jump_link):
    # 解析查询参数
    parsed = urllib.parse.urlparse(jump_link)
    query_params = urllib.parse.parse_qs(parsed.query)
    
    # 查找'url'参数并解码
    encoded_target_url = query_params.get('url', [None])[0]
    if encoded_target_url:
        # 使用urllib.parse.unquote解码URL编码
        target_url = urllib.parse.unquote(encoded_target_url)
        return target_url
    else:
         return None

def Rssspider(rss):
    try:
        feed =feedparser.parse(rss)
    except:
        print(f"Error:{rss}地址错误或网络故障")
    for entry in feed.entries:
        tilte = entry.title.replace("<b>","").replace("</b>","").replace("...","")
        jump_link = entry.link
        summary = entry.summary.replace("<b>","").replace("</b>","").replace("...","")
        #新闻时间
        data =entry.published[:10]
        target_url = extract_target_url(jump_link)
        if target_url:
            print("link:",target_url)
        else:
            print("link:","")
            print("title:",tilte)
            print("summary:",summary)
            print("data:",data)

if __name__ == "__main__":
    Rssspider("https:/xxxx")

最后采集效果自己看，我不能说好，怕过度宣传，放个女神的采集结果给大家看看，这里面使用了个免费的情感分析库，效果很一般，想上情感分析的AI，但是接口要钱，自己内部搭建需要一个带卡的服务器，都没有，所以就使用了python的SnowNLP，效果极差，先对付用吧。后面有机会训练个小模型替代